Skip to content
AI-Daily-Builder

2026-05-21 views

Anthropic Code with Claude 伦敦:代理平台成熟 —— Dreaming、Outcomes、Finance

为什么值得读 主题是从「更好的模型」转向「可靠的自主性」。Outcomes(评分代理执行的 grader loop)与 Dreaming(排程记忆整理)是「可放着无人看管执行的代理」的基建 —— 那才是企业代理部署的真正阻碍,不是模型 IQ。

在 Code with Claude 伦敦(5/20-21),Anthropic 推出 5 个代理功能 —— Dreaming、Outcomes、多代理协调、10 个代理的 Claude Finance、Add-ins —— 加上 Claude for Small Business 整合。

Anthropic 把 Code with Claude 开发者活动带到 伦敦(5/20-21),用它推出代理平台中对生产真正重要的部分 —— 不是新旗舰模型,而是代理周围的可靠性脚手架。

5 个代理功能

功能作用
Dreaming(研究预览)排程程序,回顾过去代理 session + 记忆库,提取模式、整理长期记忆
Outcomes(公开测试)grader loop,依定义的成功标准为代理执行评分 —— 补上「代理真的成功了吗?」缺口
多代理协调在一个任务上协调多个专精代理
Claude Finance10 个金融专用代理套件
Add-ins把 Claude 延伸到既有应用界面

加上 Claude for Small Business —— 与 QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspace、Microsoft 365 的预建整合 —— 把代理能力打包给非技术运营者。

全部跑在 Claude Opus 4.7(今春稍早夺下编码基准领先的模型,93 任务编码套件上较 Opus 4.6 约 +13%)。

真正的主题:自主性可靠度,不是模型 IQ

被低估的转变:Anthropic 在这里卖的不是更聪明的模型 —— 是 让代理可信到能放着无人看管执行的基建。

两者合起来瞄准「示范跑一次成功」与「可部署在生产并走开的代理」之间的缺口。

为什么重要

Practitioner note

对在 Claude 上出货的开发者:

被低估的角度:代理平台战是靠可靠性工具赢的,不是模型基准。 Outcomes 与 Dreaming 不华丽 —— grader 与记忆整理不像新模型上头条。但它们正是把代理示范转成已部署、无人看管生产系统的东西。先让代理无聊又可靠的实验室赢下企业,无论谁刷下一个基准。


来源

标签

请喝咖啡