Skip to content
AI-Daily-Builder

2026-05-18 views

xAI、Grok Build CLI を出荷:8 個のサブエージェント並列、SWE-Bench 70.8%、$99 イントロ価格

読む理由 注目すべきはベンチマークスコアではなく「8 サブエージェント並列」という構造的選択。これが定着すれば、コストモデルは「タスクあたりトークン」から「分あたりタスク」へ反転 —— Claude Code/Codex のチームは精度ではなくスループットで再評価。

5/14 パブリックベータ。SWE-Bench 70.8%、256K context、$0.20/$1.50 per 1M tokens、$99 イントロ。8 サブエージェント並列で四つ巴に。

xAI が 5/14、初の agentic コーディング CLI Grok Build をパブリックベータでリリースした。Elon Musk が X 上で直接テスター募集を行った。出荷バーは本物だ:SWE-Bench Verified 70.8%256K context独立 git ブランチで 8 サブエージェント並列、そして既存全社を物理的に下回るイントロ価格。

主要スペック比較

スペックGrok BuildClaude Code (Sonnet 4.6)OpenAI Codex
SWE-Bench Verified70.8%~70%~68%
Context256K1M(Sonnet 4.6 large)200K
API 入力$0.20 / 1M$3.00 / 1M$1.50 / 1M
API 出力$1.50 / 1M$15.00 / 1M$10.00 / 1M
サブスク$99/月イントロ、$299/月通常$20–$200/月$20–$200/月
並列サブエージェント8 並列サブタスクスポーンサブタスクスポーン

API 価格が最も攻撃的。入力 per 1M $0.20 は Claude Sonnet 4.6 の 15 分の 1、OpenAI Codex の 7.5 分の 1。出力 per 1M $1.50 はそれぞれ 10 分の 1、6.7 分の 1。

8 サブエージェント設計

構造的な賭け:

メンタルモデルの転換:コーディングセッションは「1 つのエージェントが 1 つを遅く処理」ではなく「8 つのエージェントが 8 つを各サンドボックスで並列処理」になる。wall-clock 時間を節約できるかは、タスクがどれだけきれいに分解できるかに完全依存する。

既存品との差分

価格戦術

$99/月を 6 ヶ月 vs 通常 $299/月は意図的な土地取り合戦。xAI は後発組がやる定石どおり、マージンをシェアと交換している。算術:

Grok Build が日常タスクで Claude Code と互角なら(ベンチマークスコアは全てを語らない —— オープンな問い)、シート単価の経済学が各社に評価を強いる。リスクは 6 ヶ月後の更新で $299 に戻ること —— xAI はスイッチコスト(codebase context、prompt チューニング、ワークフローの筋肉記憶)が安価ウィンドウが閉じる前にチームをロックインすることに賭けている。

配布とセットアップ

配布は x.ai/cli —— Anthropic と OpenAI と同じパターン。App Store 戦も MDM 摩擦もないが、エンタープライズ調達のストーリーもない。製品はまず個人開発者と小チーム向け。エンタープライズ SKU は xAI がまだ出荷していない SSO + 監査ログ案件の後ろにあるはず。

Practitioner note

すでに Claude Code か Codex で動いているチーム向け:

過小評価されている角度:dev-tools の coding-agent 市場は今や四つ巴のコモディティ戦。 4 ベンダーで SWE-Bench スコアが 68〜71% 帯に集中し API 価格が 15 倍も差がつくと、ボトルネックはモデル品質ではなく統合の深さ —— エージェントがあなたのコードベース規約、テストスイート、CI、チーム規範をどれだけ理解するか。今後 18 ヶ月の競争は どのベンダーがあなたの既存スタックに最も深いフックを作るか、ベンチマークを 2 ポイント上回るかではない。


ソース

タグ

チップ