2026-05-20 — views

Google Gemini 3.5 Flash, 에이전트 작업에서 지난 분기 Pro 플래그십을 능가

읽어야 하는 이유 신호는 가격-성능 역전. 버짓 급이 이제 「달러당 에이전트 처리량」에서 지난 분기 플래그십을 앞선다. 인프라를 Pro 급 가격으로 설계했다면, 코드 변경 없이 단위 경제성이 개선됐다.

I/O 2026: Flash 급 Gemini 3.5 Flash가 코딩+에이전트 벤치에서 Gemini 3.1 Pro를 능가. $1.50/$9 per 1M 토큰. Terminal-Bench 76.2% vs 70.3%. 4배 빠르고 반값.

Google I/O 2026(5/19)에서 Google이 Gemini 3.5 Flash를 출시했다 —— 헤드라인은 모델 자체가 아니라 가격-성능 역전이다. Flash 급(버짓) 모델이 이제 Gemini 3.1 Pro(지난 분기 플래그십)를 에이전트·코딩 벤치에서 능가하며, 비용은 일부에 불과.

벤치마크 수치

벤치마크	Gemini 3.5 Flash	Gemini 3.1 Pro
Terminal-Bench 2.1(코딩)	76.2%	70.3%
MCP Atlas(도구 사용)	83.6%	—
Finance Agent v2	57.9%	—
GDPval-AA(실세계 에이전트)	1656 Elo	—

Google의 설명: 프런티어급 성능을 4배 속도, 「종종 절반 미만 비용」으로.

가격과 제공

$1.50 / 100만 입력 토큰 · $9 / 100만 출력 토큰
100만 토큰 컨텍스트
첫날 GA, 6개 표면에 걸쳐(Gemini 앱, Search AI Mode, Vertex AI, AI Studio 등)
Gemini 3.5 Pro는 「다음 달」 예고

빌더에게 왜 중요한가

구조적 전환: 버짓 급이 에이전트 워크로드에서 이전 플래그십의 능력 라인을 넘었다 —— 프로덕션 AI 제품에서 실제로 중요한 워크로드(다단계 도구 사용, 코딩, 장기 에이전트)다.

추론 예산을 3.1-Pro 급 가격으로 설계했다면, 단위 경제성이 코드 한 줄 안 바꾸고 개선됐다 —— 모델 문자열 교체, 동작 유지, 청구 절감. 이는 Anthropic 매출총이익 기사에서 표시한 동일 동학: 프런티어 모델 계층이 능력 가격을 계속 하향 재설정하고, 절감은 최신 티어에 가장 빨리 출하하는 자에게 흐른다.

Practitioner note

이전 전 재벤치마크. Terminal-Bench 승리가 당신의 특정 워크로드 개선을 보장하지 않는다. 전환 전 최근 5개 프로덕션 트레이스를 3.5 Flash vs 현재 모델로 돌려라.
헤드라인 가격이 아닌 달러당 처리량을 봐라. 반값 4배 속도는 에이전트 루프가 분당 더 많은 작업을 완료한다는 의미 —— 코딩 에이전트에서 다룬 처리량 프레임이 여기에도 적용.
단일 벤더에 과도하게 커밋하지 마라. Gemini Flash, Claude, GPT가 모두 분기로 재가격하는 가운데, 멀티 모델 라우팅이 최적 가격-성능 티어를 따라가게 한다.

과소평가된 각도: 「Flash가 지난 분기 Pro를 능가」는 이제 3개 랩 모두에서 신뢰할 만한 분기 리듬. 즉 합리적 아키텍처는 벤더 비종속 모델 라우팅 + 분기 재벤치마크 —— 단일 모델 패밀리에 대한 장기 베팅이 아니다. 해자는 당신의 eval 하니스이지, 모델 선택이 아니다.