2026-05-18 — views
xAI 推出 Grok Build CLI:8 个子代理并行、SWE-Bench 70.8%、$99 入门价
为什么值得读 值得盯紧的不是 benchmark 分数,而是「8 个 subagent 并行」这个结构选择。若它站得住,成本模型从「每任务多少 token」转成「每分钟多少任务」 —— 跑 Claude Code 或 Codex 的团队都得从 throughput 重做评估。
5/14 公开测试。SWE-Bench 70.8%、256K context、$0.20/$1.50 每百万 tokens、$99 入门价。8 个子代理并行 git 分支 —— 竞赛变四方。
xAI 于 5/14 把首款 agentic coding CLI Grok Build 推上公开测试。Elon Musk 在 X 上亲自招募测试者。出货水准是真的:SWE-Bench Verified 70.8%、256K context、8 个 subagent 并行于独立 git 分支,入门价狠狠杀穿所有既有对手。
规格对照
| 规格 | Grok Build | Claude Code (Sonnet 4.6) | OpenAI Codex |
|---|---|---|---|
| SWE-Bench Verified | 70.8% | ~70% | ~68% |
| Context | 256K | 1M(Sonnet 4.6 large) | 200K |
| API 输入 | $0.20 / 1M | $3.00 / 1M | $1.50 / 1M |
| API 输出 | $1.50 / 1M | $15.00 / 1M | $10.00 / 1M |
| 订阅 | $99/月入门、$299/月标准 | $20–$200/月 | $20–$200/月 |
| 并行子代理 | 8 个并行 | 子任务派生 | 子任务派生 |
API 定价是最猛的部分。输入 每百万 $0.20 比 Claude Sonnet 4.6 便宜 15 倍、比 OpenAI Codex 便宜 7.5 倍。输出 每百万 $1.50 分别便宜 10 倍与 6.7 倍。
8 个子代理的设计
结构性的下注:
- Plan mode 需要先核准才写文件。 Agent 先输出结构化计划(步骤、文件、预期 diff),使用者按下核准后才开始执行。
- 子代理在独立 git 分支上派生。 每次最多 8 个并行。每个处理一个独立子任务 —— 一个单元测试、一个 refactor 分支、一个调查 —— 完成后合并回来。
- 冲突解决交给使用者。 当并行分支动到同一个文件,agent 会把两个 diff 都呈现出来、问你保留哪个,而不是自己猜。
心智模型的转变:写程序不再是「一个 agent 慢慢做一件事」,而是「8 个 agent 各自在 sandbox 内做 8 件事」。能不能省下 wall-clock 时间,完全取决于你的任务拆得干不干净。
跟既有作品比,哪些是新的
- Anthropic 在 Claude Code 推出 sub-agents(
Agent工具)—— 但预设是循序执行,要明确指定才会并行。 - OpenAI Codex 推出多文件编辑与背景任务 —— 一样预设单线程。
- Grok Build 预设多分支并行。 这是新的结构选择。能否一般化 —— 或只是制造一堆半成品分支 —— 是仍待经验验证的问题。
定价战术
$99/月跑 6 个月 vs $299/月标准价,是刻意的抢地。xAI 在做所有后进者都会做的事:用毛利换市占。算术:
- 一个团队用 Claude Code $200/月 × 10 个席次 = $2,000/月
- 同一团队用 Grok Build 入门价 = $990/月
- 省下:10 人团队年省 $12,000 美元
如果 Grok Build 在日常任务上跟 Claude Code 打平(benchmark 分数说不了全部 —— 还是开放问题),每席经济学就会迫使各家评估。风险在 6 个月后续订时要回 $299 —— xAI 押注的是切换成本(codebase context、prompt 调优、工作流的肌肉记忆)会在便宜窗口关上前把客户锁死。
通路与安装
通路是 x.ai/cli —— Anthropic 和 OpenAI 都用同样方式。没有 App Store 战、没有 MDM 摩擦,但也没有企业采购的故事。产品先打个人开发者与小团队;企业 SKU 应该还锁在 xAI 还没推出的 SSO + 审计日志方案后面。
Practitioner note
对已经用 Claude Code 或 Codex 的团队:
- 第一天不要切换。 SWE-Bench 跟现实任务品质只有粗略相关。诚实的测试是:把上周 5 个已合并的 PR 拿给 Grok Build 跑,跟既有工具比怎么处理。挪两个小时,结果比你想的更快会分晓。
- 要评估的是 8 子代理设计,不是价格。 如果你的工作量天生可拆(如:大型 refactor 加测试、为多个框架产生实现、平行探索竞争设计),Grok Build 的结构选择就有意义。如果不是(单文件修改、循序 debug),并行只是多余的 overhead。
- Plan-mode workflow 可迁移。 如果你的团队已经训练成「先读 agent 计划再核准」,Grok Build 的核准闸就合身。如果团队习惯 yolo 改动,这个闸会变成摩擦。先存在的纪律才是关键。
被低估的角度:dev-tools coding-agent 市场现在是四方商品化竞赛。 当 SWE-Bench 分数在四家供应商间聚集到 68–71% 带、API 价差到 15 倍,瓶颈就从模型品质转成整合深度 —— agent 能多熟地读你的 codebase 惯例、测试套件、CI、团队规范。未来 18 个月的竞争是哪家供应商在你既有技术栈内做最深的钩子,不是哪家把 benchmark 多刷 2 分。
来源
- xAI coding agent Grok Build — Engadget ↗
- xAI enters the coding agent race with Grok Build — DevOps.com ↗
- xAI coding agents Grok Build — CIO Dive ↗
- xAI launches Grok Build coding agent for developers — Dataconomy ↗
- xAI drops Grok Build — an agentic CLI that wants to live in your terminal ↗