2026-05-20 — views

Google Gemini 3.5 Flash、エージェントタスクで前四半期の Pro フラッグシップを上回る

読む理由シグナルは価格性能の逆転。バジェット級が今や前四半期フラッグシップを「ドルあたりエージェントスループット」で上回る。インフラを Pro 級価格で設計していたなら、コード変更なしでユニットエコノミクスが改善した。

I/O 2026：Flash 級 Gemini 3.5 Flash がコーディング+エージェントで Gemini 3.1 Pro を上回る。$1.50/$9 per 1M token。Terminal-Bench 76.2% vs 70.3%。4 倍速・半額。

Google I/O 2026（5/19）で、Google は Gemini 3.5 Flash をローンチした —— 見出しはモデル自体ではなく 価格性能の逆転 だ。Flash 級（バジェット）モデルが今や Gemini 3.1 Pro（前四半期のフラッグシップ）をエージェント＆コーディングベンチで上回る、コストはわずか。

ベンチマーク数値

ベンチマーク	Gemini 3.5 Flash	Gemini 3.1 Pro
Terminal-Bench 2.1（コーディング）	76.2%	70.3%
MCP Atlas（ツール使用）	83.6%	—
Finance Agent v2	57.9%	—
GDPval-AA（実世界エージェント）	1656 Elo	—

Google の説明：フロンティア級性能を 4 倍速、「しばしば半分未満のコスト」で。

価格と提供

$1.50 / 100 万入力 token · $9 / 100 万出力 token
100 万 token コンテキスト
初日 GA、6 サーフェスにわたる（Gemini アプリ、Search AI Mode、Vertex AI、AI Studio など）
Gemini 3.5 Pro は「来月」と予告

ビルダーにとってなぜ重要か

構造的シフトは：バジェット級がエージェントワークロードで前フラッグシップの能力ラインを越えた —— 本番 AI 製品で実際に重要なワークロード（マルチステップツール使用、コーディング、長期エージェント）だ。

推論予算を 3.1-Pro 級価格で設計していたなら、ユニットエコノミクスは コード 1 行変えずに 改善した —— モデル文字列を入れ替え、挙動を保ち、請求を削る。これは Anthropic 粗利記事でフラグした同じ動態だ：フロンティアモデル層は能力価格を下方に再設定し続け、節約は最新ティアで最速に出荷する者に流れる。

Practitioner note

移行前に再ベンチ。 Terminal-Bench の勝利はあなたの特定ワークロードの改善を保証しない。切り替え前に直近 5 つの本番トレースを 3.5 Flash vs 現行モデルで走らせる。
見出し価格でなくドルあたりスループットを見る。 半額 4 倍速はエージェントループが分あたりより多くのタスクを完了する意味 —— コーディングエージェントで扱ったスループットフレームがここにも適用。
単一ベンダーに過度にコミットしない。 Gemini Flash、Claude、GPT がすべて四半期で再価格設定する中、マルチモデルルーティングが最良の価格性能ティアに追従させる。

過小評価されている角度：「Flash が前四半期 Pro を上回る」は今や 3 ラボすべてで信頼できる四半期のリズム。 つまり合理的なアーキテクチャはベンダー非依存のモデルルーティング + 四半期の再ベンチ —— 単一モデルファミリーへの長期ベットではない。堀はあなたの eval ハーネスであって、モデル選択ではない。