2026-05-21 — views

Anthropic Code with Claude ロンドン：エージェントプラットフォームの成熟 —— Dreaming、Outcomes、Finance

読む理由テーマは「より良いモデル」から「信頼できる自律性」へのシフト。Outcomes（エージェント実行を採点する grader loop）と Dreaming（スケジュールされたメモリ整理）は、無人で走らせ続けられるエージェントのインフラ —— エンタープライズ展開の本当の障壁はモデル IQ ではない。

Code with Claude ロンドン（5/20-21）で Anthropic が 5 つのエージェント機能 —— Dreaming、Outcomes、マルチエージェント編成、Claude Finance、Add-ins —— と Small Business 統合を出荷。

Anthropic は Code with Claude 開発者イベントを ロンドン（5/20-21） に持ち込み、エージェントプラットフォームの本番で重要な部分を出荷した —— 新フラッグシップモデルではなく、エージェント周りの信頼性スキャフォールディング。

5 つのエージェント機能

機能	役割
Dreaming（リサーチプレビュー）	過去のエージェントセッション + メモリストアをレビューし、パターンを抽出、長期メモリをキュレートするスケジュールプロセス
Outcomes（パブリックベータ）	定義された成功基準に対しエージェントの実行を採点する grader loop —— 「エージェントは実際に成功したか？」のギャップを埋める
マルチエージェント編成	1 つのタスクで複数の専門エージェントを協調
Claude Finance	10 の金融特化エージェントスイート
Add-ins	Claude を既存アプリ面に拡張

加えて Claude for Small Business —— QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspace、Microsoft 365 との事前構築統合 —— 非技術オペレーター向けにエージェント能力をパッケージ化。

すべて Claude Opus 4.7（この春先にコーディングベンチのリードを奪ったモデル、93 タスクのコーディングスイートで Opus 4.6 比約 +13%）上で動作。

本当のテーマ：自律性の信頼性、モデル IQ ではない

過小評価されているシフト：Anthropic がここで売っているのはより賢いモデルではなく —— エージェントを無人で走らせ続けられるほど信頼できるものにするインフラ。

Outcomes は「エージェントが成功したかどうやって知る？」の答え —— grader loop がエージェント実行を撃ちっぱなしから測定・採点可能な単位に変える。これがエンタープライズ展開の障壁で、生の能力ではない。
Dreaming は「再プロンプトせずにエージェントが時間とともに良くなるには？」の答え —— スケジュールされたメモリ整理で、セッションをまたいで学習を複利化。

両者は「一度動くデモ」と「本番にデプロイして立ち去れるエージェント」のギャップを狙う。

なぜ重要か

競争がスタックを上に移った。 モデル品質（Opus 4.7 vs Gemini 3.5 Flash vs GPT）はもはや前提；差別化はエージェント運用層 —— 編成、メモリ、評価、統合。これは Gemini 3.5 Flash 記事を反映：生の能力が四半期でコモディティ化すると、堀は周辺システムに移る。
Claude Finance + Small Business = 垂直パッケージング。 Anthropic は水平 API からパッケージ化された垂直エージェントスイートへ移行。価値捕捉がモデル API だけでなくアプリ層にあるという賭け。
Outcomes が最重要リリース。 内蔵 grader loop は企業がエージェントの「成功」を定義しスコアを信頼できるようにする。エージェントのパイロットと本番の差。

Practitioner note

Claude 上で出荷するビルダー向け：

エージェントをスケールする前に Outcomes を採用。 grader loop なしでエージェントを走らせているなら、信頼性で計器飛行している。成功基準を定義し Outcomes を配線すれば「だいたい動く」を測定可能な SLA に変える。これがこのイベントで最も高レバレッジ。
Dreaming はメモリアーキテクチャを変える。 エージェントメモリ/context を手動管理してきたなら、スケジュールされたメモリ整理が自前配管の一部を置き換えるかも。さらにメモリインフラを自作する前に評価を。
Claude for Small Business は流通シグナル。 QuickBooks/HubSpot/M365 統合は Anthropic が非開発者オペレーターを直接狙う意味。SMB 向けエージェント製品を作るなら、今やファーストパーティのパッケージエージェントと競合 —— 生の能力でなくワークフローの深さで差別化。

過小評価される角度：エージェントプラットフォーム戦は信頼性ツールで勝つ、モデルベンチマークではない。 Outcomes と Dreaming は地味 —— grader とメモリ整理は新モデルのように見出しにならない。だがそれらこそエージェントデモをデプロイ済み・無人本番システムに変えるもの。エージェントを 退屈で信頼できる ものに先にしたラボがエンタープライズを勝ち取る、次のベンチマークで誰がトップでも。