2026-06-08 — views

마이크로소프트가 자체 코딩 모델을 GitHub Copilot에 투입하다: MAI-Code-1-Flash가 빌더에게 갖는 의미

읽어야 하는 이유 GitHub Copilot에서 살다시피 한다면, 이번 주 커서 아래의 기본 모델이 조용히 바뀌었을 수 있다. 실제로 무엇이 출시됐고 어떻게 알아보는지 정리한다.

마이크로소프트는 Build 2026에서 5B 자체 코딩 모델을 VS Code에 넣고 35B 추론 모델도 출시했다——둘 다 OpenAI 증류 없이 학습.

무엇이 출시됐나

6월 2일 샌프란시스코에서 열린 Build 2026에서, 마이크로소프트는 전에 없던 일을 했다. 전적으로 사내에서 구축하고 OpenAI를 포함한 어떤 제3자 모델에서도 증류하지 않은 기반 모델을, VS Code의 GitHub Copilot 사용자 커서 아래에 직접 투입한 것이다.

두 개의 모델이 발표됐다. 대부분의 빌더가 가장 먼저 접하게 될 것은 MAI-Code-1-Flash, 50억 파라미터 코딩 모델로, 같은 날부터 Visual Studio Code의 기본 모델 중 하나로 순차 배포가 시작됐으며 모델 선택기와 자동(“auto”) 선택기 양쪽에 노출된다. 기조연설은 초기 배포를 전체 사용자의 약 10%로 잡았다. 두 번째는 MAI-Thinking-1, 350억 개의 활성 파라미터(마이크로소프트는 총합을 약 1조로 인용)와 256,000 토큰 컨텍스트 윈도를 가진 희소 Mixture-of-Experts 추론 모델로, 회사 말로는 600페이지 문서를 한 번에 읽을 수 있을 만큼 크다. 이것은 Microsoft Foundry를 통한 비공개 프리뷰 상태이며 OpenRouter, Fireworks, Baseten을 통해서도 배포되고 있다.

실무자에게 핵심은 파라미터 수가 아니다. 이 작은 모델이 일상적인 에이전트형 코딩을 위한 더 저렴하고 군더더기 없는 기본값으로 자리매김했고, 이미 수백만 명이 매일 아침 여는 도구 안에 들어와 있다는 점이다.

마이크로소프트가 내건 수치

마이크로소프트는 MAI-Code-1-Flash를 주로 Anthropic의 Claude Haiku 4.5와 대비해 벤치마킹했다——프런티어 대 프런티어의 과시가 아니라 “작고 빠른” 동급 비교다.

지표	MAI-Code-1-Flash	비교 대상
파라미터 수	5B	—
SWE-Bench Pro	51.2%	Claude Haiku 4.5: 35.2%
SWE-Bench Verified에서의 토큰 사용량	최대 60% 적음	기존 방식 대비
지시 따르기(IF Bench)	+28.9 포인트 격차	Claude Haiku 4.5 대비
MAI-Thinking-1, AIME 25	97%	—
MAI-Thinking-1, SWE-Bench Pro	53%	—

내가 동그라미를 칠 것은 “최대 60% 적은 토큰”이라는 주장이다. 인터랙티브 루프——자동완성, 에이전트 단계, 반복되는 도구 호출——안에서 돌도록 만들어진 작은 모델에게 토큰 효율은 복리로 쌓인다. 토큰이 적다는 것은 단계당 더 낮은 지연과 작업당 더 낮은 비용을 뜻하며, 마이크로소프트는 이를 “토큰 대비 수익(return on token)” 개선으로 요약했다. SWE-Bench Pro에서 51%를 기록하면서도 눈에 띄게 적은 토큰을 쓰는 5B 모델은, 일상적 편집이라는 롱테일을 위한 신뢰할 만한 기본값이다——어려운 5%에서는 더 큰 모델로 손을 뻗더라도 말이다.

왜 이것이 단지 마이크로소프트의 이야기가 아니라 빌더의 이야기인가

소프트웨어를 출시한다면 세 가지가 중요하다.

첫째, 기본값이 바뀌었다. Copilot의 자동 모델 선택을 쓴다면, 이제 당신의 완성 일부가 당신이 돌아가고 있다고 가정한 것이 아니라 마이크로소프트 모델을 거칠 수 있다. 동작 변화를 디버깅하며 자기 프롬프트를 탓하기 전에 알아둘 가치가 있다.

둘째, “증류 없음”이라는 프레이밍은 조달 신호이지 마케팅 허울이 아니다. 마이크로소프트는 제3자 모델로부터의 증류가 전혀 없는 “엔터프라이즈급의, 깨끗하고 상업적으로 라이선스된 데이터 계보”를 거듭 강조했다. 규제 대상이거나 지식재산에 민감한 맥락에 있는 팀에게, 학습 데이터의 출처는 점점 더 구매 기준이 되고 있다. 공급사가 데이터 계보를 보증할 모델은 그렇지 않은 모델보다 법무를 통과시키기 쉽다.

셋째, 전략적 배경은 진짜 다변화다. TechTimes에 따르면, 이는 2026년 4월 마이크로소프트–OpenAI 파트너십 개정으로 마이크로소프트의 OpenAI 지식재산에 대한 독점 라이선스가 종료된 데 뒤따른다. 마이크로소프트가 OpenAI를 버리는 것은 아니다——Azure는 여전히 그 모델들을 제공한다——그러나 이제 Foundry를 모델 선택 위에 있는 오케스트레이션 계층으로 자리매김하면서, 자사의 퍼스트파티 모델을 여러 선택지 중 하나로 둔다. 빌더에게, 곡선의 소형 끝단에 신뢰할 만한 퍼스트파티 선택지가 늘어난다는 것은 대개 가격에 대한 하방 압력과 공급사 협상에서의 더 큰 지렛대를 뜻한다.

짚어둘 만한 함정

5B 모델은 프런티어 모델이 아니며, 마이크로소프트는 비교 대상을 신중히 골랐다. Claude Haiku 4.5는 작고 저렴한 등급이지 플래그십이 아니다. SWE-Bench Pro에서 그것을 이긴 것은 그 체급으로서는 진짜 성과이지만, 까다로운 다중 파일 리팩터링에서 MAI-Code-1-Flash가 Sonnet급이나 GPT급 모델과 어떻게 견주는지는 전혀 알려주지 않는다. SWE-Bench의 벤치마크 승리도 어수선한 비공개 monorepo와 부딪치면 늘 살아남는 것은 아니다. 51.2%를 “이것은 강력한 기본값이다”로 받아들이고, “이것이 당신의 중량급 모델을 대체한다”로 받아들이지 말라.

실무 노트

이번 주에 내가 실제로 할 일: VS Code를 열고 Copilot 모델 선택기를 확인해, MAI-Code-1-Flash가 제공되는지, 또는 내 자동 선택기에 이미 선택돼 있는지 본다. 그렇다면 일상적인 완성과 작은 편집에는 켜둔 채로 두겠다——토큰 효율 이야기는 바로 빠른 소형 모델이 제값을 하는 지점이다——그러나 아키텍처 수준이나 다중 파일 변경을 조용히 맡기지는 않겠다. 그런 것에는 명시적으로 더 큰 모델을 고정한다. 또한 어떤 공급사 벤치마크든 믿기 전에 내 자체 평가를 돌린다. 내 repo에서 대표적인 티켓 10건을 고정으로 뽑아 통과율과 토큰 지출로 점수를 매기는 편이, 내 실제 비용을 예측하는 데는 어떤 SWE-Bench 수치보다 낫다. MAI-Thinking-1 프리뷰는, 구체적인 장문 컨텍스트 추론 작업과 그 상업 라이선스 학습 스토리가 실제로 해결하는 엔터프라이즈 데이터 계보 요건이 없는 한, 손대지 않고 두겠다.

간과된 관점

모두가 이것을 “마이크로소프트 대 OpenAI”로 읽는다. 빌더에게 더 흥미로운 변화는 작고 자사 소유의 기본값의 부상이다. IDE를 쥔 회사가 그 안에서 자동 선택되는 저렴한 모델까지 출시할 때, 에이전트형 코딩의 경제학은 이동한다. 완성의 한계 비용은 제3자 API의 마진이 아니라 호스트 자신의 추론 비용 쪽으로 수렴한다. 이는 유통을 소유한 쪽에 유리하다. 이 패턴이 유지된다면——퍼스트파티 소형 모델이 Copilot 전반에 기본값으로 박히고, 아마 다른 IDE 소유자들로부터도 비슷한 움직임이 나온다면——경쟁의 전장은 “리더보드에서 가장 좋은 모델”이기를 멈추고 “이미 개발자가 일하는 곳에 앉아 있는, 받아들일 만한 가장 저렴한 모델”이 된다. 독립 모델 공급사들은, 기본값 자리가 점령되고 그들의 쐐기가 그 소형 기본값이 할 수 없는 어려운 작업——이제 그것이 공짜로 해내는 일상적인 작업이 아니라——이 되는 세계를 대비해 계획을 세워야 한다.