2026-05-21 — views
Anthropic Code with Claude 伦敦:代理平台成熟 —— Dreaming、Outcomes、Finance
为什么值得读 主题是从「更好的模型」转向「可靠的自主性」。Outcomes(评分代理执行的 grader loop)与 Dreaming(排程记忆整理)是「可放着无人看管执行的代理」的基建 —— 那才是企业代理部署的真正阻碍,不是模型 IQ。
在 Code with Claude 伦敦(5/20-21),Anthropic 推出 5 个代理功能 —— Dreaming、Outcomes、多代理协调、10 个代理的 Claude Finance、Add-ins —— 加上 Claude for Small Business 整合。
Anthropic 把 Code with Claude 开发者活动带到 伦敦(5/20-21),用它推出代理平台中对生产真正重要的部分 —— 不是新旗舰模型,而是代理周围的可靠性脚手架。
5 个代理功能
| 功能 | 作用 |
|---|---|
| Dreaming(研究预览) | 排程程序,回顾过去代理 session + 记忆库,提取模式、整理长期记忆 |
| Outcomes(公开测试) | grader loop,依定义的成功标准为代理执行评分 —— 补上「代理真的成功了吗?」缺口 |
| 多代理协调 | 在一个任务上协调多个专精代理 |
| Claude Finance | 10 个金融专用代理套件 |
| Add-ins | 把 Claude 延伸到既有应用界面 |
加上 Claude for Small Business —— 与 QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspace、Microsoft 365 的预建整合 —— 把代理能力打包给非技术运营者。
全部跑在 Claude Opus 4.7(今春稍早夺下编码基准领先的模型,93 任务编码套件上较 Opus 4.6 约 +13%)。
真正的主题:自主性可靠度,不是模型 IQ
被低估的转变:Anthropic 在这里卖的不是更聪明的模型 —— 是 让代理可信到能放着无人看管执行的基建。
- Outcomes 是「我怎么知道代理成功了?」的答案 —— grader loop 把代理执行从「射后不理」变成可衡量、可评分的单位。这是企业代理部署的阻碍,不是原始能力。
- Dreaming 是「代理怎么随时间变好而不用我重新 prompt?」的答案 —— 排程记忆整理,跨 session 复利学习。
两者合起来瞄准「示范跑一次成功」与「可部署在生产并走开的代理」之间的缺口。
为什么重要
- 竞争往堆叠上移了。 模型品质(Opus 4.7 vs Gemini 3.5 Flash vs GPT)现在是基本盘;差异化在代理操作层 —— 协调、记忆、评估、整合。这呼应 Gemini 3.5 Flash 报导:当原始能力季度商品化,护城河移到周围系统。
- Claude Finance + Small Business = 垂直打包。 Anthropic 从水平 API 移向打包的垂直代理套件。那是「价值捕获在应用层、不只模型 API」的押注。
- Outcomes 是最重要的发布。 内建 grader loop 让公司能为代理定义「成功」并信任分数。那是代理试点与代理生产之间的差别。
Practitioner note
对在 Claude 上出货的开发者:
- 在你扩展任何代理前先采用 Outcomes。 若你跑代理而没有 grader loop,你在可靠性上是盲飞。定义成功标准、接上 Outcomes,就把「通常能用」变成可衡量的 SLA。这是这场活动最高杠杆的一件事。
- Dreaming 改变记忆架构。 若你一直手动管理代理记忆/context,排程记忆整理可能取代一部分自建管线。在自建更多记忆基建前先评估。
- Claude for Small Business 是分销信号。 QuickBooks/HubSpot/M365 整合代表 Anthropic 直接打非开发者运营者。若你为 SMB 做代理产品,你现在与第一方打包代理竞争 —— 用工作流深度差异化,不是原始能力。
被低估的角度:代理平台战是靠可靠性工具赢的,不是模型基准。 Outcomes 与 Dreaming 不华丽 —— grader 与记忆整理不像新模型上头条。但它们正是把代理示范转成已部署、无人看管生产系统的东西。先让代理无聊又可靠的实验室赢下企业,无论谁刷下一个基准。
来源
- Claude Opus 4.7 — Anthropic ↗
- Anthropic releases Claude Opus 4.7, retaking the LLM lead — VentureBeat ↗
- Introducing Claude Opus 4.7 in Amazon Bedrock — AWS ↗
- Anthropic release notes — May 2026 ↗