2026-05-18 — views

xAI、Grok Build CLI を出荷：8 個のサブエージェント並列、SWE-Bench 70.8%、$99 イントロ価格

読む理由注目すべきはベンチマークスコアではなく「8 サブエージェント並列」という構造的選択。これが定着すれば、コストモデルは「タスクあたりトークン」から「分あたりタスク」へ反転 —— Claude Code/Codex のチームは精度ではなくスループットで再評価。

5/14 パブリックベータ。SWE-Bench 70.8%、256K context、$0.20/$1.50 per 1M tokens、$99 イントロ。8 サブエージェント並列で四つ巴に。

xAI が 5/14、初の agentic コーディング CLI Grok Build をパブリックベータでリリースした。Elon Musk が X 上で直接テスター募集を行った。出荷バーは本物だ：SWE-Bench Verified 70.8%、256K context、独立 git ブランチで 8 サブエージェント並列、そして既存全社を物理的に下回るイントロ価格。

主要スペック比較

スペック	Grok Build	Claude Code (Sonnet 4.6)	OpenAI Codex
SWE-Bench Verified	70.8%	~70%	~68%
Context	256K	1M（Sonnet 4.6 large）	200K
API 入力	$0.20 / 1M	$3.00 / 1M	$1.50 / 1M
API 出力	$1.50 / 1M	$15.00 / 1M	$10.00 / 1M
サブスク	$99/月イントロ、$299/月通常	$20–$200/月	$20–$200/月
並列サブエージェント	8 並列	サブタスクスポーン	サブタスクスポーン

API 価格が最も攻撃的。入力 per 1M $0.20 は Claude Sonnet 4.6 の 15 分の 1、OpenAI Codex の 7.5 分の 1。出力 per 1M $1.50 はそれぞれ 10 分の 1、6.7 分の 1。

8 サブエージェント設計

構造的な賭け：

Plan mode はファイル書き込み前に承認必須。 エージェントは構造化された計画（手順、ファイル、想定 diff）を出力 → ユーザーが承認 → 実行開始。
サブエージェントは独立 git ブランチでスポーン。 同時最大 8。各サブエージェントが独立サブタスクを処理 —— ユニットテスト、リファクタブランチ、調査 —— 終了時にマージバック。
コンフリクト解決はユーザーへ。 並列ブランチが同じファイルを触ったら、両方の diff を提示してどちらを残すか問う —— 推測しない。

メンタルモデルの転換：コーディングセッションは「1 つのエージェントが 1 つを遅く処理」ではなく「8 つのエージェントが 8 つを各サンドボックスで並列処理」になる。wall-clock 時間を節約できるかは、タスクがどれだけきれいに分解できるかに完全依存する。

既存品との差分

Anthropic は Claude Code でサブエージェントを出荷（Agent ツール）—— ただしデフォルトは順次実行で、並列ディスパッチは明示要求が必要。
OpenAI Codex は複数ファイル編集とバックグラウンドタスクを出荷 —— 同様にデフォルトはシングルスレッド。
Grok Build はマルチブランチ並列がデフォルト。 これが新しい構造選択。一般化するか —— あるいは半端なブランチが雪崩るか —— は経験的に未決の問題。

価格戦術

$99/月を 6 ヶ月 vs 通常 $299/月は意図的な土地取り合戦。xAI は後発組がやる定石どおり、マージンをシェアと交換している。算術：

Claude Code を $200/月 × 10 シート使うチーム = $2,000/月
同じチームが Grok Build イントロ価格 = $990/月
節約：10 人チームで年 $12,000

Grok Build が日常タスクで Claude Code と互角なら（ベンチマークスコアは全てを語らない —— オープンな問い）、シート単価の経済学が各社に評価を強いる。リスクは 6 ヶ月後の更新で $299 に戻ること —— xAI はスイッチコスト（codebase context、prompt チューニング、ワークフローの筋肉記憶）が安価ウィンドウが閉じる前にチームをロックインすることに賭けている。

配布とセットアップ

配布は x.ai/cli —— Anthropic と OpenAI と同じパターン。App Store 戦も MDM 摩擦もないが、エンタープライズ調達のストーリーもない。製品はまず個人開発者と小チーム向け。エンタープライズ SKU は xAI がまだ出荷していない SSO + 監査ログ案件の後ろにあるはず。

Practitioner note

すでに Claude Code か Codex で動いているチーム向け：

初日に乗り換えるな。 SWE-Bench は実世界タスク品質と緩い相関しかない。誠実なテストは、先週 close した 5 つの PR を Grok Build に走らせて既存ツールと比較すること。2 時間ブロックすれば、思ったより速く結論が出る。
評価対象は 8 サブエージェント設計であって価格ではない。 ワークロードが自然に分解できる（大規模リファクタにテスト追加、複数フレームワーク向け実装生成、競合する設計案の並列探索など）なら、Grok Build の構造選択は意味を持つ。そうでない場合（単一ファイル変更、順次デバッグ）、並列性は単なるオーバーヘッド。
Plan-mode ワークフローは移植可能。 チームが既に「エージェント計画を読んでから承認」に訓練されているなら、Grok Build の承認ゲートはフィット。yolo で変更を入れるチームならゲートは摩擦になる。既存の規律が鍵。

過小評価されている角度：dev-tools の coding-agent 市場は今や四つ巴のコモディティ戦。 4 ベンダーで SWE-Bench スコアが 68〜71% 帯に集中し API 価格が 15 倍も差がつくと、ボトルネックはモデル品質ではなく統合の深さ —— エージェントがあなたのコードベース規約、テストスイート、CI、チーム規範をどれだけ理解するか。今後 18 ヶ月の競争は どのベンダーがあなたの既存スタックに最も深いフックを作るか、ベンチマークを 2 ポイント上回るかではない。