2026-05-20 — views
Google Gemini 3.5 Flash、エージェントタスクで前四半期の Pro フラッグシップを上回る
読む理由 シグナルは価格性能の逆転。バジェット級が今や前四半期フラッグシップを「ドルあたりエージェントスループット」で上回る。インフラを Pro 級価格で設計していたなら、コード変更なしでユニットエコノミクスが改善した。
I/O 2026:Flash 級 Gemini 3.5 Flash がコーディング+エージェントで Gemini 3.1 Pro を上回る。$1.50/$9 per 1M token。Terminal-Bench 76.2% vs 70.3%。4 倍速・半額。
Google I/O 2026(5/19)で、Google は Gemini 3.5 Flash をローンチした —— 見出しはモデル自体ではなく 価格性能の逆転 だ。Flash 級(バジェット)モデルが今や Gemini 3.1 Pro(前四半期のフラッグシップ)をエージェント&コーディングベンチで上回る、コストはわずか。
ベンチマーク数値
| ベンチマーク | Gemini 3.5 Flash | Gemini 3.1 Pro |
|---|---|---|
| Terminal-Bench 2.1(コーディング) | 76.2% | 70.3% |
| MCP Atlas(ツール使用) | 83.6% | — |
| Finance Agent v2 | 57.9% | — |
| GDPval-AA(実世界エージェント) | 1656 Elo | — |
Google の説明:フロンティア級性能を 4 倍速、「しばしば半分未満のコスト」で。
価格と提供
- $1.50 / 100 万入力 token · $9 / 100 万出力 token
- 100 万 token コンテキスト
- 初日 GA、6 サーフェスにわたる(Gemini アプリ、Search AI Mode、Vertex AI、AI Studio など)
- Gemini 3.5 Pro は「来月」と予告
ビルダーにとってなぜ重要か
構造的シフトは:バジェット級がエージェントワークロードで前フラッグシップの能力ラインを越えた —— 本番 AI 製品で実際に重要なワークロード(マルチステップツール使用、コーディング、長期エージェント)だ。
推論予算を 3.1-Pro 級価格で設計していたなら、ユニットエコノミクスは コード 1 行変えずに 改善した —— モデル文字列を入れ替え、挙動を保ち、請求を削る。これは Anthropic 粗利記事 でフラグした同じ動態だ:フロンティアモデル層は能力価格を下方に再設定し続け、節約は最新ティアで最速に出荷する者に流れる。
Practitioner note
- 移行前に再ベンチ。 Terminal-Bench の勝利はあなたの特定ワークロードの改善を保証しない。切り替え前に直近 5 つの本番トレースを 3.5 Flash vs 現行モデルで走らせる。
- 見出し価格でなくドルあたりスループットを見る。 半額 4 倍速はエージェントループが分あたりより多くのタスクを完了する意味 —— コーディングエージェントで扱ったスループットフレーム がここにも適用。
- 単一ベンダーに過度にコミットしない。 Gemini Flash、Claude、GPT がすべて四半期で再価格設定する中、マルチモデルルーティングが最良の価格性能ティアに追従させる。
過小評価されている角度:「Flash が前四半期 Pro を上回る」は今や 3 ラボすべてで信頼できる四半期のリズム。 つまり合理的なアーキテクチャはベンダー非依存のモデルルーティング + 四半期の再ベンチ —— 単一モデルファミリーへの長期ベットではない。堀はあなたの eval ハーネスであって、モデル選択ではない。
ソース
- Google Introduces Gemini 3.5 Flash at I/O 2026 — MarkTechPost ↗
- Google Rolls Out Gemini 3.5 Flash — Winbuzzer ↗
- Gemini 3.5 Flash: 4x faster and half the cost — BigGo Finance ↗
- Google launches Gemini 3.5 Flash, Spark, Omni at I/O 2026 — Yahoo Tech ↗