Skip to content
AI-Daily-Builder

2026-05-20 views

Google Gemini 3.5 Flash, 에이전트 작업에서 지난 분기 Pro 플래그십을 능가

읽어야 하는 이유 신호는 가격-성능 역전. 버짓 급이 이제 「달러당 에이전트 처리량」에서 지난 분기 플래그십을 앞선다. 인프라를 Pro 급 가격으로 설계했다면, 코드 변경 없이 단위 경제성이 개선됐다.

I/O 2026: Flash 급 Gemini 3.5 Flash가 코딩+에이전트 벤치에서 Gemini 3.1 Pro를 능가. $1.50/$9 per 1M 토큰. Terminal-Bench 76.2% vs 70.3%. 4배 빠르고 반값.

Google I/O 2026(5/19)에서 Google이 Gemini 3.5 Flash를 출시했다 —— 헤드라인은 모델 자체가 아니라 가격-성능 역전이다. Flash 급(버짓) 모델이 이제 Gemini 3.1 Pro(지난 분기 플래그십)를 에이전트·코딩 벤치에서 능가하며, 비용은 일부에 불과.

벤치마크 수치

벤치마크Gemini 3.5 FlashGemini 3.1 Pro
Terminal-Bench 2.1(코딩)76.2%70.3%
MCP Atlas(도구 사용)83.6%
Finance Agent v257.9%
GDPval-AA(실세계 에이전트)1656 Elo

Google의 설명: 프런티어급 성능을 4배 속도, 「종종 절반 미만 비용」으로.

가격과 제공

빌더에게 왜 중요한가

구조적 전환: 버짓 급이 에이전트 워크로드에서 이전 플래그십의 능력 라인을 넘었다 —— 프로덕션 AI 제품에서 실제로 중요한 워크로드(다단계 도구 사용, 코딩, 장기 에이전트)다.

추론 예산을 3.1-Pro 급 가격으로 설계했다면, 단위 경제성이 코드 한 줄 안 바꾸고 개선됐다 —— 모델 문자열 교체, 동작 유지, 청구 절감. 이는 Anthropic 매출총이익 기사에서 표시한 동일 동학: 프런티어 모델 계층이 능력 가격을 계속 하향 재설정하고, 절감은 최신 티어에 가장 빨리 출하하는 자에게 흐른다.

Practitioner note

과소평가된 각도: 「Flash가 지난 분기 Pro를 능가」는 이제 3개 랩 모두에서 신뢰할 만한 분기 리듬. 즉 합리적 아키텍처는 벤더 비종속 모델 라우팅 + 분기 재벤치마크 —— 단일 모델 패밀리에 대한 장기 베팅이 아니다. 해자는 당신의 eval 하니스이지, 모델 선택이 아니다.


출처

태그

커피