2026-05-21 — views

Anthropic Code with Claude 倫敦：代理平台成熟 —— Dreaming、Outcomes、Finance

為什麼值得讀主題是從「更好的模型」轉向「可靠的自主性」。Outcomes（評分代理執行的 grader loop）與 Dreaming（排程記憶整理）是「可放著無人看管執行的代理」的基建 —— 那才是企業代理部署的真正阻礙，不是模型 IQ。

在 Code with Claude 倫敦（5/20-21），Anthropic 推出 5 個代理功能 —— Dreaming、Outcomes、多代理協調、10 個代理的 Claude Finance、Add-ins —— 加上 Claude for Small Business 整合。

Anthropic 把 Code with Claude 開發者活動帶到 倫敦（5/20-21），用它推出代理平台中對生產真正重要的部分 —— 不是新旗艦模型，而是代理周圍的可靠性鷹架。

5 個代理功能

功能	作用
Dreaming（研究預覽）	排程程序，回顧過去代理 session + 記憶庫，提取模式、整理長期記憶
Outcomes（公開測試）	grader loop，依定義的成功標準為代理執行評分 —— 補上「代理真的成功了嗎？」缺口
多代理協調	在一個任務上協調多個專精代理
Claude Finance	10 個金融專用代理套件
Add-ins	把 Claude 延伸到既有應用介面

加上 Claude for Small Business —— 與 QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspace、Microsoft 365 的預建整合 —— 把代理能力打包給非技術營運者。

全部跑在 Claude Opus 4.7（今春稍早奪下編碼基準領先的模型，93 任務編碼套件上較 Opus 4.6 約 +13%）。

被低估的轉變：Anthropic 在這裡賣的不是更聰明的模型 —— 是 讓代理可信到能放著無人看管執行的基建。

Outcomes 是「我怎麼知道代理成功了？」的答案 —— grader loop 把代理執行從「射後不理」變成可衡量、可評分的單位。這是企業代理部署的阻礙，不是原始能力。
Dreaming 是「代理怎麼隨時間變好而不用我重新 prompt？」的答案 —— 排程記憶整理，跨 session 複利學習。

兩者合起來瞄準「示範跑一次成功」與「可部署在生產並走開的代理」之間的缺口。

競爭往堆疊上移了。 模型品質（Opus 4.7 vs Gemini 3.5 Flash vs GPT）現在是基本盤；差異化在代理操作層 —— 協調、記憶、評估、整合。這呼應 Gemini 3.5 Flash 報導：當原始能力季度商品化，護城河移到周圍系統。
Claude Finance + Small Business = 垂直打包。 Anthropic 從水平 API 移向打包的垂直代理套件。那是「價值捕獲在應用層、不只模型 API」的押注。
Outcomes 是最重要的發布。 內建 grader loop 讓公司能為代理定義「成功」並信任分數。那是代理試點與代理生產之間的差別。

對在 Claude 上出貨的開發者：

在你擴展任何代理前先採用 Outcomes。 若你跑代理而沒有 grader loop，你在可靠性上是盲飛。定義成功標準、接上 Outcomes，就把「通常能用」變成可衡量的 SLA。這是這場活動最高槓桿的一件事。
Dreaming 改變記憶架構。 若你一直手動管理代理記憶/context，排程記憶整理可能取代一部分自建管線。在自建更多記憶基建前先評估。
Claude for Small Business 是分銷訊號。 QuickBooks/HubSpot/M365 整合代表 Anthropic 直接打非開發者營運者。若你為 SMB 做代理產品，你現在與第一方打包代理競爭 —— 用工作流深度差異化，不是原始能力。

被低估的角度：代理平台戰是靠可靠性工具贏的，不是模型基準。 Outcomes 與 Dreaming 不華麗 —— grader 與記憶整理不像新模型上頭條。但它們正是把代理示範轉成已部署、無人看管生產系統的東西。先讓代理無聊又可靠的實驗室贏下企業，無論誰刷下一個基準。