Skip to content
AI-Daily-Builder

2026-05-20 views

Google Gemini 3.5 Flash 在代理任務上贏過上一季的 Pro 旗艦

為什麼值得讀 訊號是「價格-效能反轉」:預算級現在在每美元代理吞吐量上跑贏上一季旗艦。若你的基建是按 Pro 級定價規劃的,你的單位經濟學剛剛改善了,而且不用改一行程式。

I/O 2026:Flash 級 Gemini 3.5 Flash 在編碼+代理基準贏過 Gemini 3.1 Pro,$1.50/$9 每百萬 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半價。

在 Google I/O 2026(5/19),Google 推出 Gemini 3.5 Flash —— 頭條不是模型本身,而是 價格-效能反轉。一個 Flash 級(預算)模型現在在代理與編碼基準上贏過 Gemini 3.1 Pro(上一季的旗艦),成本只是零頭。

基準數字

基準Gemini 3.5 FlashGemini 3.1 Pro
Terminal-Bench 2.1(編碼)76.2%70.3%
MCP Atlas(工具使用)83.6%
Finance Agent v257.9%
GDPval-AA(真實代理)1656 Elo

Google 的說法:前沿級效能、4 倍速度、「常常不到一半成本」。

定價與供應

為什麼對開發者重要

結構性轉變是:預算級在代理工作量上跨過了前一旗艦的能力線 —— 那正是生產 AI 產品真正重要的工作量(多步工具使用、編碼、長程代理)。

若你的推論預算是按 3.1-Pro 級定價架構的,你的單位經濟學剛剛改善了 而且一行程式都不用改 —— 換掉模型字串、保留行為、砍掉帳單。這跟我們在 Anthropic 毛利報導 標記的是同一動態:前沿模型層持續把能力價格往下重訂,省下的流向最快在最新級別出貨的人。

Practitioner note

被低估的角度:「Flash 贏過上一季 Pro」現在是三家實驗室可靠的季度節奏。 這意味理性架構是「供應商無關的模型路由 + 季度重新 benchmark」 —— 不是對單一模型家族的長期押注。護城河是你的 eval harness,不是你的模型選擇。


來源

標籤

請喝咖啡