2026-05-18 — views
xAI、Grok Build CLI を出荷:8 個のサブエージェント並列、SWE-Bench 70.8%、$99 イントロ価格
読む理由 注目すべきはベンチマークスコアではなく「8 サブエージェント並列」という構造的選択。これが定着すれば、コストモデルは「タスクあたりトークン」から「分あたりタスク」へ反転 —— Claude Code/Codex のチームは精度ではなくスループットで再評価。
5/14 パブリックベータ。SWE-Bench 70.8%、256K context、$0.20/$1.50 per 1M tokens、$99 イントロ。8 サブエージェント並列で四つ巴に。
xAI が 5/14、初の agentic コーディング CLI Grok Build をパブリックベータでリリースした。Elon Musk が X 上で直接テスター募集を行った。出荷バーは本物だ:SWE-Bench Verified 70.8%、256K context、独立 git ブランチで 8 サブエージェント並列、そして既存全社を物理的に下回るイントロ価格。
主要スペック比較
| スペック | Grok Build | Claude Code (Sonnet 4.6) | OpenAI Codex |
|---|---|---|---|
| SWE-Bench Verified | 70.8% | ~70% | ~68% |
| Context | 256K | 1M(Sonnet 4.6 large) | 200K |
| API 入力 | $0.20 / 1M | $3.00 / 1M | $1.50 / 1M |
| API 出力 | $1.50 / 1M | $15.00 / 1M | $10.00 / 1M |
| サブスク | $99/月イントロ、$299/月通常 | $20–$200/月 | $20–$200/月 |
| 並列サブエージェント | 8 並列 | サブタスクスポーン | サブタスクスポーン |
API 価格が最も攻撃的。入力 per 1M $0.20 は Claude Sonnet 4.6 の 15 分の 1、OpenAI Codex の 7.5 分の 1。出力 per 1M $1.50 はそれぞれ 10 分の 1、6.7 分の 1。
8 サブエージェント設計
構造的な賭け:
- Plan mode はファイル書き込み前に承認必須。 エージェントは構造化された計画(手順、ファイル、想定 diff)を出力 → ユーザーが承認 → 実行開始。
- サブエージェントは独立 git ブランチでスポーン。 同時最大 8。各サブエージェントが独立サブタスクを処理 —— ユニットテスト、リファクタブランチ、調査 —— 終了時にマージバック。
- コンフリクト解決はユーザーへ。 並列ブランチが同じファイルを触ったら、両方の diff を提示してどちらを残すか問う —— 推測しない。
メンタルモデルの転換:コーディングセッションは「1 つのエージェントが 1 つを遅く処理」ではなく「8 つのエージェントが 8 つを各サンドボックスで並列処理」になる。wall-clock 時間を節約できるかは、タスクがどれだけきれいに分解できるかに完全依存する。
既存品との差分
- Anthropic は Claude Code でサブエージェントを出荷(
Agentツール)—— ただしデフォルトは順次実行で、並列ディスパッチは明示要求が必要。 - OpenAI Codex は複数ファイル編集とバックグラウンドタスクを出荷 —— 同様にデフォルトはシングルスレッド。
- Grok Build はマルチブランチ並列がデフォルト。 これが新しい構造選択。一般化するか —— あるいは半端なブランチが雪崩るか —— は経験的に未決の問題。
価格戦術
$99/月を 6 ヶ月 vs 通常 $299/月は意図的な土地取り合戦。xAI は後発組がやる定石どおり、マージンをシェアと交換している。算術:
- Claude Code を $200/月 × 10 シート使うチーム = $2,000/月
- 同じチームが Grok Build イントロ価格 = $990/月
- 節約:10 人チームで年 $12,000
Grok Build が日常タスクで Claude Code と互角なら(ベンチマークスコアは全てを語らない —— オープンな問い)、シート単価の経済学が各社に評価を強いる。リスクは 6 ヶ月後の更新で $299 に戻ること —— xAI はスイッチコスト(codebase context、prompt チューニング、ワークフローの筋肉記憶)が安価ウィンドウが閉じる前にチームをロックインすることに賭けている。
配布とセットアップ
配布は x.ai/cli —— Anthropic と OpenAI と同じパターン。App Store 戦も MDM 摩擦もないが、エンタープライズ調達のストーリーもない。製品はまず個人開発者と小チーム向け。エンタープライズ SKU は xAI がまだ出荷していない SSO + 監査ログ案件の後ろにあるはず。
Practitioner note
すでに Claude Code か Codex で動いているチーム向け:
- 初日に乗り換えるな。 SWE-Bench は実世界タスク品質と緩い相関しかない。誠実なテストは、先週 close した 5 つの PR を Grok Build に走らせて既存ツールと比較すること。2 時間ブロックすれば、思ったより速く結論が出る。
- 評価対象は 8 サブエージェント設計であって価格ではない。 ワークロードが自然に分解できる(大規模リファクタにテスト追加、複数フレームワーク向け実装生成、競合する設計案の並列探索など)なら、Grok Build の構造選択は意味を持つ。そうでない場合(単一ファイル変更、順次デバッグ)、並列性は単なるオーバーヘッド。
- Plan-mode ワークフローは移植可能。 チームが既に「エージェント計画を読んでから承認」に訓練されているなら、Grok Build の承認ゲートはフィット。yolo で変更を入れるチームならゲートは摩擦になる。既存の規律が鍵。
過小評価されている角度:dev-tools の coding-agent 市場は今や四つ巴のコモディティ戦。 4 ベンダーで SWE-Bench スコアが 68〜71% 帯に集中し API 価格が 15 倍も差がつくと、ボトルネックはモデル品質ではなく統合の深さ —— エージェントがあなたのコードベース規約、テストスイート、CI、チーム規範をどれだけ理解するか。今後 18 ヶ月の競争は どのベンダーがあなたの既存スタックに最も深いフックを作るか、ベンチマークを 2 ポイント上回るかではない。
ソース
- xAI coding agent Grok Build — Engadget ↗
- xAI enters the coding agent race with Grok Build — DevOps.com ↗
- xAI coding agents Grok Build — CIO Dive ↗
- xAI launches Grok Build coding agent for developers — Dataconomy ↗
- xAI drops Grok Build — an agentic CLI that wants to live in your terminal ↗