2026-05-20 — views

Google Gemini 3.5 Flash 在代理任务上赢过上一季的 Pro 旗舰

为什么值得读信号是「价格-性能反转」：预算级现在在每美元代理吞吐量上跑赢上一季旗舰。若你的基建是按 Pro 级定价规划的，你的单位经济学刚刚改善了，而且不用改一行代码。

I/O 2026：Flash 级 Gemini 3.5 Flash 在编码+代理基准赢过 Gemini 3.1 Pro，$1.50/$9 每百万 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半价。

在 Google I/O 2026（5/19），Google 推出 Gemini 3.5 Flash —— 头条不是模型本身，而是 价格-性能反转。一个 Flash 级（预算）模型现在在代理与编码基准上赢过 Gemini 3.1 Pro（上一季的旗舰），成本只是零头。

基准数字

Google 的说法：前沿级性能、4 倍速度、「常常不到一半成本」。

结构性转变是：预算级在代理工作量上跨过了前一旗舰的能力线 —— 那正是生产 AI 产品真正重要的工作量（多步工具使用、编码、长程代理）。

若你的推理预算是按 3.1-Pro 级定价架构的，你的单位经济学刚刚改善了 而且一行代码都不用改 —— 换掉模型字符串、保留行为、砍掉账单。这跟我们在 Anthropic 毛利报导标记的是同一动态：前沿模型层持续把能力价格往下重订，省下的流向最快在最新级别出货的人。

迁移前重新 benchmark。 Terminal-Bench 赢不保证你的特定工作量改善。切换前用你最近 5 个生产 trace 在 3.5 Flash vs 现有模型上跑。
看每美元吞吐量，不是头条价格。 半价 4 倍速代表你的代理循环每分钟完成更多任务 —— 我们为 coding agent 讲的吞吐量框架在这也适用。
不要过度绑定单一供应商。 Gemini Flash、Claude、GPT 都季度重订价，多模型路由让你随最佳价格-性能级别移动。

被低估的角度：「Flash 赢过上一季 Pro」现在是三家实验室可靠的季度节奏。 这意味理性架构是「供应商无关的模型路由 + 季度重新 benchmark」 —— 不是对单一模型家族的长期押注。护城河是你的 eval harness，不是你的模型选择。