2026-05-20 — views
Google Gemini 3.5 Flash 在代理任务上赢过上一季的 Pro 旗舰
为什么值得读 信号是「价格-性能反转」:预算级现在在每美元代理吞吐量上跑赢上一季旗舰。若你的基建是按 Pro 级定价规划的,你的单位经济学刚刚改善了,而且不用改一行代码。
I/O 2026:Flash 级 Gemini 3.5 Flash 在编码+代理基准赢过 Gemini 3.1 Pro,$1.50/$9 每百万 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半价。
在 Google I/O 2026(5/19),Google 推出 Gemini 3.5 Flash —— 头条不是模型本身,而是 价格-性能反转。一个 Flash 级(预算)模型现在在代理与编码基准上赢过 Gemini 3.1 Pro(上一季的旗舰),成本只是零头。
基准数字
| 基准 | Gemini 3.5 Flash | Gemini 3.1 Pro |
|---|---|---|
| Terminal-Bench 2.1(编码) | 76.2% | 70.3% |
| MCP Atlas(工具使用) | 83.6% | — |
| Finance Agent v2 | 57.9% | — |
| GDPval-AA(真实代理) | 1656 Elo | — |
Google 的说法:前沿级性能、4 倍速度、「常常不到一半成本」。
定价与供应
- $1.50 / 百万输入 token · $9 / 百万输出 token
- 100 万 token context
- 首日 GA,横跨 6 个界面(Gemini app、Search AI Mode、Vertex AI、AI Studio 等)
- Gemini 3.5 Pro 预告「下个月」
为什么对开发者重要
结构性转变是:预算级在代理工作量上跨过了前一旗舰的能力线 —— 那正是生产 AI 产品真正重要的工作量(多步工具使用、编码、长程代理)。
若你的推理预算是按 3.1-Pro 级定价架构的,你的单位经济学刚刚改善了 而且一行代码都不用改 —— 换掉模型字符串、保留行为、砍掉账单。这跟我们在 Anthropic 毛利报导 标记的是同一动态:前沿模型层持续把能力价格往下重订,省下的流向最快在最新级别出货的人。
Practitioner note
- 迁移前重新 benchmark。 Terminal-Bench 赢不保证你的特定工作量改善。切换前用你最近 5 个生产 trace 在 3.5 Flash vs 现有模型上跑。
- 看每美元吞吐量,不是头条价格。 半价 4 倍速代表你的代理循环每分钟完成更多任务 —— 我们为 coding agent 讲的吞吐量框架 在这也适用。
- 不要过度绑定单一供应商。 Gemini Flash、Claude、GPT 都季度重订价,多模型路由让你随最佳价格-性能级别移动。
被低估的角度:「Flash 赢过上一季 Pro」现在是三家实验室可靠的季度节奏。 这意味理性架构是「供应商无关的模型路由 + 季度重新 benchmark」 —— 不是对单一模型家族的长期押注。护城河是你的 eval harness,不是你的模型选择。
来源
- Google Introduces Gemini 3.5 Flash at I/O 2026 — MarkTechPost ↗
- Google Rolls Out Gemini 3.5 Flash — Winbuzzer ↗
- Gemini 3.5 Flash: 4x faster and half the cost — BigGo Finance ↗
- Google launches Gemini 3.5 Flash, Spark, Omni at I/O 2026 — Yahoo Tech ↗