Skip to content
AI-Daily-Builder

2026-05-20 views

Google Gemini 3.5 Flash、エージェントタスクで前四半期の Pro フラッグシップを上回る

読む理由 シグナルは価格性能の逆転。バジェット級が今や前四半期フラッグシップを「ドルあたりエージェントスループット」で上回る。インフラを Pro 級価格で設計していたなら、コード変更なしでユニットエコノミクスが改善した。

I/O 2026:Flash 級 Gemini 3.5 Flash がコーディング+エージェントで Gemini 3.1 Pro を上回る。$1.50/$9 per 1M token。Terminal-Bench 76.2% vs 70.3%。4 倍速・半額。

Google I/O 2026(5/19)で、Google は Gemini 3.5 Flash をローンチした —— 見出しはモデル自体ではなく 価格性能の逆転 だ。Flash 級(バジェット)モデルが今や Gemini 3.1 Pro(前四半期のフラッグシップ)をエージェント&コーディングベンチで上回る、コストはわずか。

ベンチマーク数値

ベンチマークGemini 3.5 FlashGemini 3.1 Pro
Terminal-Bench 2.1(コーディング)76.2%70.3%
MCP Atlas(ツール使用)83.6%
Finance Agent v257.9%
GDPval-AA(実世界エージェント)1656 Elo

Google の説明:フロンティア級性能を 4 倍速、「しばしば半分未満のコスト」で。

価格と提供

ビルダーにとってなぜ重要か

構造的シフトは:バジェット級がエージェントワークロードで前フラッグシップの能力ラインを越えた —— 本番 AI 製品で実際に重要なワークロード(マルチステップツール使用、コーディング、長期エージェント)だ。

推論予算を 3.1-Pro 級価格で設計していたなら、ユニットエコノミクスは コード 1 行変えずに 改善した —— モデル文字列を入れ替え、挙動を保ち、請求を削る。これは Anthropic 粗利記事 でフラグした同じ動態だ:フロンティアモデル層は能力価格を下方に再設定し続け、節約は最新ティアで最速に出荷する者に流れる。

Practitioner note

過小評価されている角度:「Flash が前四半期 Pro を上回る」は今や 3 ラボすべてで信頼できる四半期のリズム。 つまり合理的なアーキテクチャはベンダー非依存のモデルルーティング + 四半期の再ベンチ —— 単一モデルファミリーへの長期ベットではない。堀はあなたの eval ハーネスであって、モデル選択ではない。


ソース

タグ

チップ