2026-05-20 — views
Google Gemini 3.5 Flash 在代理任務上贏過上一季的 Pro 旗艦
為什麼值得讀 訊號是「價格-效能反轉」:預算級現在在每美元代理吞吐量上跑贏上一季旗艦。若你的基建是按 Pro 級定價規劃的,你的單位經濟學剛剛改善了,而且不用改一行程式。
I/O 2026:Flash 級 Gemini 3.5 Flash 在編碼+代理基準贏過 Gemini 3.1 Pro,$1.50/$9 每百萬 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半價。
在 Google I/O 2026(5/19),Google 推出 Gemini 3.5 Flash —— 頭條不是模型本身,而是 價格-效能反轉。一個 Flash 級(預算)模型現在在代理與編碼基準上贏過 Gemini 3.1 Pro(上一季的旗艦),成本只是零頭。
基準數字
| 基準 | Gemini 3.5 Flash | Gemini 3.1 Pro |
|---|---|---|
| Terminal-Bench 2.1(編碼) | 76.2% | 70.3% |
| MCP Atlas(工具使用) | 83.6% | — |
| Finance Agent v2 | 57.9% | — |
| GDPval-AA(真實代理) | 1656 Elo | — |
Google 的說法:前沿級效能、4 倍速度、「常常不到一半成本」。
定價與供應
- $1.50 / 百萬輸入 token · $9 / 百萬輸出 token
- 100 萬 token context
- 首日 GA,橫跨 6 個介面(Gemini app、Search AI Mode、Vertex AI、AI Studio 等)
- Gemini 3.5 Pro 預告「下個月」
為什麼對開發者重要
結構性轉變是:預算級在代理工作量上跨過了前一旗艦的能力線 —— 那正是生產 AI 產品真正重要的工作量(多步工具使用、編碼、長程代理)。
若你的推論預算是按 3.1-Pro 級定價架構的,你的單位經濟學剛剛改善了 而且一行程式都不用改 —— 換掉模型字串、保留行為、砍掉帳單。這跟我們在 Anthropic 毛利報導 標記的是同一動態:前沿模型層持續把能力價格往下重訂,省下的流向最快在最新級別出貨的人。
Practitioner note
- 遷移前重新 benchmark。 Terminal-Bench 贏不保證你的特定工作量改善。切換前用你最近 5 個生產 trace 在 3.5 Flash vs 現有模型上跑。
- 看每美元吞吐量,不是頭條價格。 半價 4 倍速代表你的代理迴圈每分鐘完成更多任務 —— 我們為 coding agent 講的吞吐量框架 在這也適用。
- 不要過度綁定單一供應商。 Gemini Flash、Claude、GPT 都季度重訂價,多模型路由讓你隨最佳價格-效能級別移動。
被低估的角度:「Flash 贏過上一季 Pro」現在是三家實驗室可靠的季度節奏。 這意味理性架構是「供應商無關的模型路由 + 季度重新 benchmark」 —— 不是對單一模型家族的長期押注。護城河是你的 eval harness,不是你的模型選擇。
來源
- Google Introduces Gemini 3.5 Flash at I/O 2026 — MarkTechPost ↗
- Google Rolls Out Gemini 3.5 Flash — Winbuzzer ↗
- Gemini 3.5 Flash: 4x faster and half the cost — BigGo Finance ↗
- Google launches Gemini 3.5 Flash, Spark, Omni at I/O 2026 — Yahoo Tech ↗