2026-06-02 — views

xAI, Cursor 개발자 데이터로 튜닝한 1.5조 파라미터 Grok V9-Medium 훈련 완료

읽어야 하는 이유 핵심은 1.5조라는 파라미터 수가 아니라 훈련 코퍼스다. Cursor의 실제 개발자 워크플로로 프런티어 모델을 튜닝하는 것은 Claude와 Codex가 장악한 코딩 계층을 직접 노린 베팅이다. 가중치나 API가 나오기 전까지 벤치마크와 일정은 벤더 발표로 취급하라.

Musk는 xAI의 1.5조 파라미터 Grok V9-Medium이 훈련을 마쳤다고 밝혔다(5/25). 프로덕션 모델의 약 3배이며 Cursor 개발 데이터로 훈련, 6월 중순 공개 예정.

2026년 5월 25일, Elon Musk는 xAI의 새로운 Grok 파운데이션 모델 V9-Medium이 훈련을 완료했으며 긍정적인 평가 결과가 나왔다고 발표했다. 이 모델은 1.5조(trillion) 파라미터를 가지며, 현재 모든 Grok 프로덕션 트래픽을 처리하는 버전보다 약 3배 크다. Musk에 따르면 지도 미세조정(SFT)은 이미 진행 중이고, 강화학습(RL)은 며칠 내 시작되며, 공개는 약 2~3주 후, 즉 2026년 6월 중순으로 예상된다.

정말 중요한 한 가지

대부분이 되뇌는 숫자는 “1.5조 파라미터”다. 하지만 그건 흥미로운 부분이 아니다. 흥미로운 건 V9-Medium이 무엇으로 훈련되었는가다. Musk는 이 모델이 명시적으로 Cursor 데이터——가장 널리 쓰이는 AI 코드 에디터 중 하나에서 나온 실제 개발자 워크플로——로 훈련되었다고 말했다.

이는 각주가 아니라 의도적인 선택이다. 대부분의 프런티어 모델은 공개 저장소, 문서, 합성 문제로 코딩을 배운다. 실제로 일하는 개발자의 상호작용 기록——무엇을 요청하고, 어떻게 반복하며, 어디서 제안을 수락하거나 거부하는지——으로 직접 훈련하는 것은, 완성된 결과물만이 아니라 ‘소프트웨어를 만드는 행위’ 자체를 모델링하려는 시도다. xAI가 어디서 경쟁하려는지를 분명히 드러낸다.

두 모델이라는 큰 그림

사실 두 개의 Grok 모델이 동시에 진행 중이며, 둘 사이의 격차가 바로 핵심이다:

모델	규모	상태	비고
Grok V9-Medium	1.5조 파라미터	훈련 완료, 다음은 SFT + RL	현 프로덕션 모델의 약 3배, Cursor 데이터로 훈련, 6월 중순경 공개
Grok 5	6조 파라미터(MoE)	여전히 활발히 훈련 중	예측 시장은 6/30 이전 출시를 약 33%로 본다

플래그십 Grok 5——6조 파라미터의 Mixture-of-Experts(MoE) 모델——는 아직 훈련 중이며, 예측 시장은 그것이 2026년 6월 30일까지 출시될 확률을 약 **33%**로만 본다. 배경에는 훈련 이후(post-training)의 불확실성과, 2026년 2월 SpaceX가 xAI를 흡수한 이래 전해지는 인력 이탈이 있다. 따라서 xAI의 단기 카드는 플래그십이 전혀 아니라, 더 작고 코딩에 특화된 Medium 모델을 지금 내놓는 것이다.

빌더에게 왜 중요한가

6월 중순 일정이 유지된다면, V9-Medium은 오늘날 AI에서 가장 빠르게 수익화되는 워크로드, 즉 코딩에 정면으로 안착한다. 이곳은 Anthropic의 Claude와 OpenAI의 Codex가 현재 개발자 점유율과 지출을 장악한 계층이다. Cursor 워크플로에 특화해 튜닝한 프런티어 규모의 모델은, 범용 어시스턴트가 아니라 “개발자가 실제로 일하는 방식으로 빚어진 시스템”으로 그 계층을 정면으로 다투려는 명확한 시도다.

순서가 바로 실용적인 지점이다. xAI는 6조짜리 플래그십을 기다리지 않고, 더 작고, 더 빠르고, 코딩에 집중한 계층을 먼저 내놓는다——경쟁사들이 이미 운영하는 “빠르고 저렴한 vs. 프런티어” 분할과 같다. 6월에 도착하는 1.5조 코딩 특화 모델은, 일정이 불확실한 6조 범용 모델이 출시되기 훨씬 전부터 압박을 가하기 시작할 수 있다.

실무 노트

여기 모든 숫자는 입증되기 전까지 벤더 발표로 취급해야 한다. 훈련 완료와 벤치마크 주장은 xAI와 Musk에게서 나온 것이며 독립적으로 검증되지 않았다——공개 가중치도, API도, 제3자 평가도 아직 없다. “훈련 완료”는 “출시 준비 완료”도 아니다. 지도 미세조정과 강화학습이 여전히 오늘과 사용 가능한 모델 사이에 놓여 있고, 그 격차야말로 역량과 행동이 결정되는 지점이다. V9-Medium을 코딩 워크플로용으로 평가할 계획이라면, 의미 있는 유일한 테스트는 당신 자신의 것이다——API가 나오면 당신의 실제 저장소, 당신의 리뷰 관문, 당신의 수용 기준에 맞춰 돌려 보라. 그전까지 “Cursor 데이터로 훈련”은 품질에 관한 측정 결과가 아니라 의도에 관한 포지셔닝 주장일 뿐이다. 가중치나 엔드포인트를 주시하고, 파라미터 수는 무시하라.

덜 다뤄진 관점

Cursor의 개발자 데이터로 프런티어 모델을 훈련하는 일은 파라미터와 무관한 질문을 던진다. 누구의 워크플로가 교사가 되는가? 한 에디터 사용자의 상호작용 기록으로 코딩을 배운 모델은, 그 결과로 신호를 공급한 바로 그 도구에 의해 빚어지고 동시에 그것과 경쟁한다. 이는 xAI, Cursor, 그리고 세션이 훈련 데이터가 된 개발자들을, 발표 시점에는 좀처럼 명시되지 않는 방식으로 얽어맨다. 역량의 이야기는 단순명료하다. 그 아래에 깔린 데이터 출처와 인센티브의 이야기야말로, 코딩 에이전트 계층이 통합되어 가는 가운데 주시할 가치가 있는 것이다.