2026-05-18 — views

xAI 推出 Grok Build CLI：8 个子代理并行、SWE-Bench 70.8%、$99 入门价

为什么值得读值得盯紧的不是 benchmark 分数，而是「8 个 subagent 并行」这个结构选择。若它站得住，成本模型从「每任务多少 token」转成「每分钟多少任务」 —— 跑 Claude Code 或 Codex 的团队都得从 throughput 重做评估。

5/14 公开测试。SWE-Bench 70.8%、256K context、$0.20/$1.50 每百万 tokens、$99 入门价。8 个子代理并行 git 分支 —— 竞赛变四方。

xAI 于 5/14 把首款 agentic coding CLI Grok Build 推上公开测试。Elon Musk 在 X 上亲自招募测试者。出货水准是真的：SWE-Bench Verified 70.8%、256K context、8 个 subagent 并行于独立 git 分支，入门价狠狠杀穿所有既有对手。

规格对照

规格	Grok Build	Claude Code (Sonnet 4.6)	OpenAI Codex
SWE-Bench Verified	70.8%	~70%	~68%
Context	256K	1M（Sonnet 4.6 large）	200K
API 输入	$0.20 / 1M	$3.00 / 1M	$1.50 / 1M
API 输出	$1.50 / 1M	$15.00 / 1M	$10.00 / 1M
订阅	$99/月入门、$299/月标准	$20–$200/月	$20–$200/月
并行子代理	8 个并行	子任务派生	子任务派生

API 定价是最猛的部分。输入 每百万 $0.20 比 Claude Sonnet 4.6 便宜 15 倍、比 OpenAI Codex 便宜 7.5 倍。输出 每百万 $1.50 分别便宜 10 倍与 6.7 倍。

8 个子代理的设计

结构性的下注：

Plan mode 需要先核准才写文件。 Agent 先输出结构化计划（步骤、文件、预期 diff），使用者按下核准后才开始执行。
子代理在独立 git 分支上派生。 每次最多 8 个并行。每个处理一个独立子任务 —— 一个单元测试、一个 refactor 分支、一个调查 —— 完成后合并回来。
冲突解决交给使用者。 当并行分支动到同一个文件，agent 会把两个 diff 都呈现出来、问你保留哪个，而不是自己猜。

心智模型的转变：写程序不再是「一个 agent 慢慢做一件事」，而是「8 个 agent 各自在 sandbox 内做 8 件事」。能不能省下 wall-clock 时间，完全取决于你的任务拆得干不干净。

跟既有作品比，哪些是新的

Anthropic 在 Claude Code 推出 sub-agents（Agent 工具）—— 但预设是循序执行，要明确指定才会并行。
OpenAI Codex 推出多文件编辑与背景任务 —— 一样预设单线程。
Grok Build 预设多分支并行。 这是新的结构选择。能否一般化 —— 或只是制造一堆半成品分支 —— 是仍待经验验证的问题。

定价战术

$99/月跑 6 个月 vs $299/月标准价，是刻意的抢地。xAI 在做所有后进者都会做的事：用毛利换市占。算术：

一个团队用 Claude Code $200/月 × 10 个席次 = $2,000/月
同一团队用 Grok Build 入门价 = $990/月
省下：10 人团队年省 $12,000 美元

如果 Grok Build 在日常任务上跟 Claude Code 打平（benchmark 分数说不了全部 —— 还是开放问题），每席经济学就会迫使各家评估。风险在 6 个月后续订时要回 $299 —— xAI 押注的是切换成本（codebase context、prompt 调优、工作流的肌肉记忆）会在便宜窗口关上前把客户锁死。

通路与安装

通路是 x.ai/cli —— Anthropic 和 OpenAI 都用同样方式。没有 App Store 战、没有 MDM 摩擦，但也没有企业采购的故事。产品先打个人开发者与小团队；企业 SKU 应该还锁在 xAI 还没推出的 SSO + 审计日志方案后面。

Practitioner note

对已经用 Claude Code 或 Codex 的团队：

第一天不要切换。 SWE-Bench 跟现实任务品质只有粗略相关。诚实的测试是：把上周 5 个已合并的 PR 拿给 Grok Build 跑，跟既有工具比怎么处理。挪两个小时，结果比你想的更快会分晓。
要评估的是 8 子代理设计，不是价格。 如果你的工作量天生可拆（如：大型 refactor 加测试、为多个框架产生实现、平行探索竞争设计），Grok Build 的结构选择就有意义。如果不是（单文件修改、循序 debug），并行只是多余的 overhead。
Plan-mode workflow 可迁移。 如果你的团队已经训练成「先读 agent 计划再核准」，Grok Build 的核准闸就合身。如果团队习惯 yolo 改动，这个闸会变成摩擦。先存在的纪律才是关键。

被低估的角度：dev-tools coding-agent 市场现在是四方商品化竞赛。 当 SWE-Bench 分数在四家供应商间聚集到 68–71% 带、API 价差到 15 倍，瓶颈就从模型品质转成整合深度 —— agent 能多熟地读你的 codebase 惯例、测试套件、CI、团队规范。未来 18 个月的竞争是哪家供应商在你既有技术栈内做最深的钩子，不是哪家把 benchmark 多刷 2 分。