Skip to content
AI-Daily-Builder

2026-05-20 views

Google Gemini 3.5 Flash 在代理任务上赢过上一季的 Pro 旗舰

为什么值得读 信号是「价格-性能反转」:预算级现在在每美元代理吞吐量上跑赢上一季旗舰。若你的基建是按 Pro 级定价规划的,你的单位经济学刚刚改善了,而且不用改一行代码。

I/O 2026:Flash 级 Gemini 3.5 Flash 在编码+代理基准赢过 Gemini 3.1 Pro,$1.50/$9 每百万 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半价。

在 Google I/O 2026(5/19),Google 推出 Gemini 3.5 Flash —— 头条不是模型本身,而是 价格-性能反转。一个 Flash 级(预算)模型现在在代理与编码基准上赢过 Gemini 3.1 Pro(上一季的旗舰),成本只是零头。

基准数字

基准Gemini 3.5 FlashGemini 3.1 Pro
Terminal-Bench 2.1(编码)76.2%70.3%
MCP Atlas(工具使用)83.6%
Finance Agent v257.9%
GDPval-AA(真实代理)1656 Elo

Google 的说法:前沿级性能、4 倍速度、「常常不到一半成本」。

定价与供应

为什么对开发者重要

结构性转变是:预算级在代理工作量上跨过了前一旗舰的能力线 —— 那正是生产 AI 产品真正重要的工作量(多步工具使用、编码、长程代理)。

若你的推理预算是按 3.1-Pro 级定价架构的,你的单位经济学刚刚改善了 而且一行代码都不用改 —— 换掉模型字符串、保留行为、砍掉账单。这跟我们在 Anthropic 毛利报导 标记的是同一动态:前沿模型层持续把能力价格往下重订,省下的流向最快在最新级别出货的人。

Practitioner note

被低估的角度:「Flash 赢过上一季 Pro」现在是三家实验室可靠的季度节奏。 这意味理性架构是「供应商无关的模型路由 + 季度重新 benchmark」 —— 不是对单一模型家族的长期押注。护城河是你的 eval harness,不是你的模型选择。


来源

标签

请喝咖啡