Skip to content
AI-Daily-Builder

2026-05-21 views

Anthropic Code with Claude 倫敦:代理平台成熟 —— Dreaming、Outcomes、Finance

為什麼值得讀 主題是從「更好的模型」轉向「可靠的自主性」。Outcomes(評分代理執行的 grader loop)與 Dreaming(排程記憶整理)是「可放著無人看管執行的代理」的基建 —— 那才是企業代理部署的真正阻礙,不是模型 IQ。

在 Code with Claude 倫敦(5/20-21),Anthropic 推出 5 個代理功能 —— Dreaming、Outcomes、多代理協調、10 個代理的 Claude Finance、Add-ins —— 加上 Claude for Small Business 整合。

Anthropic 把 Code with Claude 開發者活動帶到 倫敦(5/20-21),用它推出代理平台中對生產真正重要的部分 —— 不是新旗艦模型,而是代理周圍的可靠性鷹架。

5 個代理功能

功能作用
Dreaming(研究預覽)排程程序,回顧過去代理 session + 記憶庫,提取模式、整理長期記憶
Outcomes(公開測試)grader loop,依定義的成功標準為代理執行評分 —— 補上「代理真的成功了嗎?」缺口
多代理協調在一個任務上協調多個專精代理
Claude Finance10 個金融專用代理套件
Add-ins把 Claude 延伸到既有應用介面

加上 Claude for Small Business —— 與 QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspace、Microsoft 365 的預建整合 —— 把代理能力打包給非技術營運者。

全部跑在 Claude Opus 4.7(今春稍早奪下編碼基準領先的模型,93 任務編碼套件上較 Opus 4.6 約 +13%)。

真正的主題:自主性可靠度,不是模型 IQ

被低估的轉變:Anthropic 在這裡賣的不是更聰明的模型 —— 是 讓代理可信到能放著無人看管執行的基建。

兩者合起來瞄準「示範跑一次成功」與「可部署在生產並走開的代理」之間的缺口。

為什麼重要

Practitioner note

對在 Claude 上出貨的開發者:

被低估的角度:代理平台戰是靠可靠性工具贏的,不是模型基準。 Outcomes 與 Dreaming 不華麗 —— grader 與記憶整理不像新模型上頭條。但它們正是把代理示範轉成已部署、無人看管生產系統的東西。先讓代理無聊又可靠的實驗室贏下企業,無論誰刷下一個基準。


來源

標籤

請喝咖啡