2026-05-18 — views

xAI, Grok Build CLI 출시: 서브에이전트 8개 병렬, SWE-Bench 70.8%, $99 인트로 가격

읽어야 하는 이유 주목할 것은 벤치마크 점수가 아니라 「서브에이전트 8개 병렬」이라는 구조적 선택. 자리잡으면 비용 모델은 「태스크당 토큰」에서 「분당 태스크」로 뒤집힘 —— Claude Code/Codex 팀은 정확도가 아닌 처리량으로 재벤치마크해야 한다.

5/14 퍼블릭 베타. SWE-Bench 70.8%, 256K 컨텍스트, $0.20/$1.50 per 1M 토큰, $99 인트로. 서브에이전트 8개 병렬로 사파전.

xAI가 5/14 첫 agentic 코딩 CLI Grok Build를 퍼블릭 베타로 출시했다. Elon Musk가 X에서 직접 테스터 모집. 출시 수준은 진짜다: SWE-Bench Verified 70.8%, 256K 컨텍스트, 독립 git 브랜치에서 서브에이전트 8개 병렬, 그리고 기존 모든 경쟁사를 물리적으로 깎아내리는 인트로 가격.

핵심 스펙 비교

스펙	Grok Build	Claude Code (Sonnet 4.6)	OpenAI Codex
SWE-Bench Verified	70.8%	~70%	~68%
컨텍스트	256K	1M(Sonnet 4.6 large)	200K
API 입력	$0.20 / 1M	$3.00 / 1M	$1.50 / 1M
API 출력	$1.50 / 1M	$15.00 / 1M	$10.00 / 1M
구독	$99/월 인트로, $299/월 표준	$20–$200/월	$20–$200/월
병렬 서브에이전트	8개 병렬	서브태스크 스폰	서브태스크 스폰

API 가격이 가장 공격적. 입력 per 1M $0.20은 Claude Sonnet 4.6의 1/15, OpenAI Codex의 1/7.5. 출력 per 1M $1.50은 각각 1/10, 1/6.7.

8 서브에이전트 설계

구조적 베팅:

Plan 모드는 파일 쓰기 전 승인 필수. 에이전트가 구조화된 계획(단계, 파일, 예상 diff)을 출력 → 사용자가 승인 → 실행 시작.
서브에이전트는 독립 git 브랜치에서 스폰. 동시 최대 8개. 각각이 독립 서브태스크 처리 —— 단위 테스트, 리팩터 브랜치, 조사 —— 종료 시 머지백.
충돌 해결은 사용자에게. 병렬 브랜치가 같은 파일을 만지면, 양쪽 diff를 모두 보여주고 어느 것을 유지할지 묻는다 —— 추측하지 않는다.

멘탈 모델의 전환: 코딩 세션은 「한 에이전트가 한 가지를 천천히」가 아니라 「8개 에이전트가 각자 샌드박스에서 8가지를 병렬」로 처리. wall-clock 시간을 절약할 수 있는지는 태스크가 얼마나 깔끔하게 분해되는지에 전적으로 달렸다.

기존 작품과의 차이

Anthropic은 Claude Code에 서브에이전트 출시(Agent 도구) —— 다만 기본은 순차 실행, 병렬 디스패치는 명시적 요청 필요.
OpenAI Codex는 다중 파일 편집과 백그라운드 태스크 출시 —— 마찬가지로 기본은 단일 스레드.
Grok Build는 멀티 브랜치 병렬이 기본. 이게 새로운 구조 선택. 일반화될지 —— 또는 반쯤 끝난 브랜치들이 산사태를 일으킬지 —— 는 경험적으로 미결.

가격 전술

$99/월을 6개월 vs 표준 $299/월은 의도된 토지전. xAI는 모든 후발 주자의 정석을 그대로 따른다: 마진을 점유율과 교환. 산수:

Claude Code $200/월 × 10 시트 사용하는 팀 = $2,000/월
같은 팀이 Grok Build 인트로 = $990/월
절감: 10명 팀 연 $12,000

Grok Build가 일상 태스크에서 Claude Code와 호각이면(벤치마크 점수는 전부를 말하지 않는다 —— 열린 문제), 시트당 경제학이 각 사에 평가를 강제한다. 리스크는 6개월 후 갱신 시 $299 복귀 —— xAI는 스위칭 비용(codebase 컨텍스트, 프롬프트 튜닝, 워크플로 근육 기억)이 저렴한 윈도우가 닫히기 전에 팀을 잠가둘 것이라는 데 베팅.

배포 및 설치

배포는 x.ai/cli —— Anthropic, OpenAI와 같은 패턴. App Store 싸움도 MDM 마찰도 없지만, 엔터프라이즈 조달 스토리도 없다. 제품은 우선 개인 개발자와 소형 팀 타깃. 엔터프라이즈 SKU는 xAI가 아직 출시하지 않은 SSO + 감사 로그 솔루션 뒤에 잠겨 있을 것.

Practitioner note

이미 Claude Code 또는 Codex에서 돌아가는 팀 대상:

첫날 갈아타지 마라. SWE-Bench는 실세계 태스크 품질과 느슨한 상관일 뿐. 정직한 테스트는 지난주 클로즈한 PR 5개를 Grok Build에 돌려 기존 도구와 비교하는 것. 2시간 잡으면 생각보다 빨리 결론 난다.
평가 대상은 8 서브에이전트 설계지 가격이 아니다. 워크로드가 자연스럽게 분해되면(대규모 리팩터에 테스트 추가, 여러 프레임워크 구현 생성, 경쟁 설계안 병렬 탐색 등) Grok Build의 구조 선택이 의미를 가진다. 그렇지 않으면(단일 파일 변경, 순차 디버깅) 병렬성은 단순 오버헤드.
Plan-모드 워크플로는 이식 가능. 팀이 이미 「에이전트 계획을 읽고 승인」으로 훈련되어 있다면 Grok Build의 승인 게이트는 맞다. yolo로 변경을 던지는 팀이면 게이트는 마찰. 기존 규율이 핵심.

과소평가된 각도: dev-tools 코딩 에이전트 시장은 이제 사파전 커머디티 레이스. 4개 벤더에서 SWE-Bench 점수가 68–71% 대역에 모이고 API 가격이 15배 차이가 나면, 병목은 모델 품질이 아니라 통합 깊이 —— 에이전트가 당신의 codebase 관습, 테스트 슈트, CI, 팀 규범을 얼마나 깊이 읽어내는가. 앞으로 18개월의 경쟁은 어느 벤더가 당신의 기존 스택에 가장 깊은 훅을 만드는가이지, 벤치마크에서 2점 더 긁어내는가가 아니다.