2026-05-21 — views

Anthropic Code with Claude 伦敦：代理平台成熟 —— Dreaming、Outcomes、Finance

为什么值得读主题是从「更好的模型」转向「可靠的自主性」。Outcomes（评分代理执行的 grader loop）与 Dreaming（排程记忆整理）是「可放着无人看管执行的代理」的基建 —— 那才是企业代理部署的真正阻碍，不是模型 IQ。

在 Code with Claude 伦敦（5/20-21），Anthropic 推出 5 个代理功能 —— Dreaming、Outcomes、多代理协调、10 个代理的 Claude Finance、Add-ins —— 加上 Claude for Small Business 整合。

Anthropic 把 Code with Claude 开发者活动带到 伦敦（5/20-21），用它推出代理平台中对生产真正重要的部分 —— 不是新旗舰模型，而是代理周围的可靠性脚手架。

5 个代理功能

功能	作用
Dreaming（研究预览）	排程程序，回顾过去代理 session + 记忆库，提取模式、整理长期记忆
Outcomes（公开测试）	grader loop，依定义的成功标准为代理执行评分 —— 补上「代理真的成功了吗？」缺口
多代理协调	在一个任务上协调多个专精代理
Claude Finance	10 个金融专用代理套件
Add-ins	把 Claude 延伸到既有应用界面

加上 Claude for Small Business —— 与 QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspace、Microsoft 365 的预建整合 —— 把代理能力打包给非技术运营者。

全部跑在 Claude Opus 4.7（今春稍早夺下编码基准领先的模型，93 任务编码套件上较 Opus 4.6 约 +13%）。

被低估的转变：Anthropic 在这里卖的不是更聪明的模型 —— 是 让代理可信到能放着无人看管执行的基建。

Outcomes 是「我怎么知道代理成功了？」的答案 —— grader loop 把代理执行从「射后不理」变成可衡量、可评分的单位。这是企业代理部署的阻碍，不是原始能力。
Dreaming 是「代理怎么随时间变好而不用我重新 prompt？」的答案 —— 排程记忆整理，跨 session 复利学习。

两者合起来瞄准「示范跑一次成功」与「可部署在生产并走开的代理」之间的缺口。

竞争往堆叠上移了。 模型品质（Opus 4.7 vs Gemini 3.5 Flash vs GPT）现在是基本盘；差异化在代理操作层 —— 协调、记忆、评估、整合。这呼应 Gemini 3.5 Flash 报导：当原始能力季度商品化，护城河移到周围系统。
Claude Finance + Small Business = 垂直打包。 Anthropic 从水平 API 移向打包的垂直代理套件。那是「价值捕获在应用层、不只模型 API」的押注。
Outcomes 是最重要的发布。 内建 grader loop 让公司能为代理定义「成功」并信任分数。那是代理试点与代理生产之间的差别。

对在 Claude 上出货的开发者：

在你扩展任何代理前先采用 Outcomes。 若你跑代理而没有 grader loop，你在可靠性上是盲飞。定义成功标准、接上 Outcomes，就把「通常能用」变成可衡量的 SLA。这是这场活动最高杠杆的一件事。
Dreaming 改变记忆架构。 若你一直手动管理代理记忆/context，排程记忆整理可能取代一部分自建管线。在自建更多记忆基建前先评估。
Claude for Small Business 是分销信号。 QuickBooks/HubSpot/M365 整合代表 Anthropic 直接打非开发者运营者。若你为 SMB 做代理产品，你现在与第一方打包代理竞争 —— 用工作流深度差异化，不是原始能力。

被低估的角度：代理平台战是靠可靠性工具赢的，不是模型基准。 Outcomes 与 Dreaming 不华丽 —— grader 与记忆整理不像新模型上头条。但它们正是把代理示范转成已部署、无人看管生产系统的东西。先让代理无聊又可靠的实验室赢下企业，无论谁刷下一个基准。