2026-05-21 — views
Anthropic Code with Claude 倫敦:代理平台成熟 —— Dreaming、Outcomes、Finance
為什麼值得讀 主題是從「更好的模型」轉向「可靠的自主性」。Outcomes(評分代理執行的 grader loop)與 Dreaming(排程記憶整理)是「可放著無人看管執行的代理」的基建 —— 那才是企業代理部署的真正阻礙,不是模型 IQ。
在 Code with Claude 倫敦(5/20-21),Anthropic 推出 5 個代理功能 —— Dreaming、Outcomes、多代理協調、10 個代理的 Claude Finance、Add-ins —— 加上 Claude for Small Business 整合。
Anthropic 把 Code with Claude 開發者活動帶到 倫敦(5/20-21),用它推出代理平台中對生產真正重要的部分 —— 不是新旗艦模型,而是代理周圍的可靠性鷹架。
5 個代理功能
| 功能 | 作用 |
|---|---|
| Dreaming(研究預覽) | 排程程序,回顧過去代理 session + 記憶庫,提取模式、整理長期記憶 |
| Outcomes(公開測試) | grader loop,依定義的成功標準為代理執行評分 —— 補上「代理真的成功了嗎?」缺口 |
| 多代理協調 | 在一個任務上協調多個專精代理 |
| Claude Finance | 10 個金融專用代理套件 |
| Add-ins | 把 Claude 延伸到既有應用介面 |
加上 Claude for Small Business —— 與 QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspace、Microsoft 365 的預建整合 —— 把代理能力打包給非技術營運者。
全部跑在 Claude Opus 4.7(今春稍早奪下編碼基準領先的模型,93 任務編碼套件上較 Opus 4.6 約 +13%)。
真正的主題:自主性可靠度,不是模型 IQ
被低估的轉變:Anthropic 在這裡賣的不是更聰明的模型 —— 是 讓代理可信到能放著無人看管執行的基建。
- Outcomes 是「我怎麼知道代理成功了?」的答案 —— grader loop 把代理執行從「射後不理」變成可衡量、可評分的單位。這是企業代理部署的阻礙,不是原始能力。
- Dreaming 是「代理怎麼隨時間變好而不用我重新 prompt?」的答案 —— 排程記憶整理,跨 session 複利學習。
兩者合起來瞄準「示範跑一次成功」與「可部署在生產並走開的代理」之間的缺口。
為什麼重要
- 競爭往堆疊上移了。 模型品質(Opus 4.7 vs Gemini 3.5 Flash vs GPT)現在是基本盤;差異化在代理操作層 —— 協調、記憶、評估、整合。這呼應 Gemini 3.5 Flash 報導:當原始能力季度商品化,護城河移到周圍系統。
- Claude Finance + Small Business = 垂直打包。 Anthropic 從水平 API 移向打包的垂直代理套件。那是「價值捕獲在應用層、不只模型 API」的押注。
- Outcomes 是最重要的發布。 內建 grader loop 讓公司能為代理定義「成功」並信任分數。那是代理試點與代理生產之間的差別。
Practitioner note
對在 Claude 上出貨的開發者:
- 在你擴展任何代理前先採用 Outcomes。 若你跑代理而沒有 grader loop,你在可靠性上是盲飛。定義成功標準、接上 Outcomes,就把「通常能用」變成可衡量的 SLA。這是這場活動最高槓桿的一件事。
- Dreaming 改變記憶架構。 若你一直手動管理代理記憶/context,排程記憶整理可能取代一部分自建管線。在自建更多記憶基建前先評估。
- Claude for Small Business 是分銷訊號。 QuickBooks/HubSpot/M365 整合代表 Anthropic 直接打非開發者營運者。若你為 SMB 做代理產品,你現在與第一方打包代理競爭 —— 用工作流深度差異化,不是原始能力。
被低估的角度:代理平台戰是靠可靠性工具贏的,不是模型基準。 Outcomes 與 Dreaming 不華麗 —— grader 與記憶整理不像新模型上頭條。但它們正是把代理示範轉成已部署、無人看管生產系統的東西。先讓代理無聊又可靠的實驗室贏下企業,無論誰刷下一個基準。
來源
- Claude Opus 4.7 — Anthropic ↗
- Anthropic releases Claude Opus 4.7, retaking the LLM lead — VentureBeat ↗
- Introducing Claude Opus 4.7 in Amazon Bedrock — AWS ↗
- Anthropic release notes — May 2026 ↗