Builder Daily

2026-05-07

DeepSeek V4、Kimi K2.6、GLM-5.1、MiniMax M2.7:前沿編碼能力,成本低 5–25 倍

四家中國實驗室在 12 天內相繼推出前沿等級編碼模型。GLM-5.1 以 MIT 授權在 SWE-Bench Pro 達 58.4%,與 Kimi K2.6 並列最高。API 成本比西方前沿模型低 5–25 倍。

在 2026 年 4 月下旬的 12 天內,四家中國實驗室相繼發布開放權重的編碼模型,在 agentic 編碼基準測試上達到幾乎相同的能力天花板,同時比西方前沿 API 便宜 5–25 倍。

四個模型

DeepSeek V4 Pro(DeepSeek AI) — 1.6 兆總參數,每次前向傳播啟用 490 億,MoE 架構,Apache 2.0 授權。在此批模型中通用推理基準測試排名最高;編碼專項略低於同批專家模型。

Kimi K2.6(Moonshot AI) — SWE-Bench Verified 80.2%、SWE-Bench Pro 58.6%。此批中 agentic 編碼分數最高,在程式碼編輯任務上可與 Claude 3.7 Sonnet 競爭。商業授權,提供託管 API。

GLM-5.1(Z.AI / 智譜) — 754B MoE,MIT 授權。SWE-Bench Pro 58.4%,與 K2.6 在統計上並列。MIT 授權是最大亮點:真正寬鬆條款下的前沿等級開放權重。完整精度需 8×H100;量化版本可在消費級叢集上運行。

MiniMax M2.7(MiniMax) — 啟用 100 億參數(來自更大的 MoE),SWE-Bench Pro 56.2%。同批中計算效率最高的選手:以極少的算力預算達到近前沿等級的編碼能力。

成本差距

在託管 API 上,GLM-5.1 和 DeepSeek V4 Flash 的定價約為每百萬輸入 token $0.10–0.30,而西方可比前沿模型約為 $3–15。對於推論密集的工作負載——程式碼審查、多檔案 agent 迴圈、平行測試生成——經濟帳發生根本性改變。

市場意涵

12 天的集中發布窗口看起來像是刻意協調。這些發布合力對西方供應商的編碼模型定價構成壓力,模式與 2024 年底 Qwen-2.5 和 DeepSeek-V3 相同:開放權重能力平價迫使 API 在 60–90 天內降價。預計 2026 下半年將出現類似的重定價週期。

實戰筆記

對於生產環境 agentic 編碼工作負載:在切換前先以你的實際任務分布對 GLM-5.1 做基準測試——SWE-Bench Verified 是標準化測試,不是你的程式碼庫。MIT 授權在你要把編碼 agent 嵌入產品時最關鍵(無使用限制、無服務條款風險)。對於在 DGX Spark 或類似叢集上自架的用戶,GLM-5.1 量化版值得現在就評估——與託管前沿模型的能力差距已縮小到這種程度。


來源

標籤

請喝咖啡