2026-05-20 — views

Google Gemini 3.5 Flash 在代理任務上贏過上一季的 Pro 旗艦

為什麼值得讀訊號是「價格-效能反轉」：預算級現在在每美元代理吞吐量上跑贏上一季旗艦。若你的基建是按 Pro 級定價規劃的，你的單位經濟學剛剛改善了，而且不用改一行程式。

I/O 2026：Flash 級 Gemini 3.5 Flash 在編碼+代理基準贏過 Gemini 3.1 Pro，$1.50/$9 每百萬 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半價。

在 Google I/O 2026（5/19），Google 推出 Gemini 3.5 Flash —— 頭條不是模型本身，而是 價格-效能反轉。一個 Flash 級（預算）模型現在在代理與編碼基準上贏過 Gemini 3.1 Pro（上一季的旗艦），成本只是零頭。

基準數字

Google 的說法：前沿級效能、4 倍速度、「常常不到一半成本」。

結構性轉變是：預算級在代理工作量上跨過了前一旗艦的能力線 —— 那正是生產 AI 產品真正重要的工作量（多步工具使用、編碼、長程代理）。

若你的推論預算是按 3.1-Pro 級定價架構的，你的單位經濟學剛剛改善了 而且一行程式都不用改 —— 換掉模型字串、保留行為、砍掉帳單。這跟我們在 Anthropic 毛利報導標記的是同一動態：前沿模型層持續把能力價格往下重訂，省下的流向最快在最新級別出貨的人。

遷移前重新 benchmark。 Terminal-Bench 贏不保證你的特定工作量改善。切換前用你最近 5 個生產 trace 在 3.5 Flash vs 現有模型上跑。
看每美元吞吐量，不是頭條價格。 半價 4 倍速代表你的代理迴圈每分鐘完成更多任務 —— 我們為 coding agent 講的吞吐量框架在這也適用。
不要過度綁定單一供應商。 Gemini Flash、Claude、GPT 都季度重訂價，多模型路由讓你隨最佳價格-效能級別移動。

被低估的角度：「Flash 贏過上一季 Pro」現在是三家實驗室可靠的季度節奏。 這意味理性架構是「供應商無關的模型路由 + 季度重新 benchmark」 —— 不是對單一模型家族的長期押注。護城河是你的 eval harness，不是你的模型選擇。