2026-05-21 — views

Anthropic Code with Claude 런던: 에이전트 플랫폼 성숙 —— Dreaming, Outcomes, Finance

읽어야 하는 이유 테마는 「더 나은 모델」에서 「신뢰할 수 있는 자율성」으로의 전환. Outcomes(에이전트 실행을 채점하는 grader loop)와 Dreaming(스케줄 메모리 큐레이션)은 무인으로 돌릴 수 있는 에이전트의 인프라 —— 그것이 엔터프라이즈 배포의 진짜 장벽이지 모델 IQ가 아니다.

Code with Claude 런던(5/20-21)에서 Anthropic이 5개 에이전트 기능 —— Dreaming, Outcomes, 멀티 에이전트 오케스트레이션, Claude Finance, Add-ins —— 와 Small Business 통합을 출시.

Anthropic은 Code with Claude 개발자 이벤트를 런던(5/20-21) 으로 가져와, 에이전트 플랫폼에서 프로덕션에 진짜 중요한 부분을 출시했다 —— 새 플래그십 모델이 아니라 에이전트 주변의 신뢰성 스캐폴딩.

5개 에이전트 기능

기능	역할
Dreaming(리서치 프리뷰)	과거 에이전트 세션 + 메모리 스토어를 검토해 패턴을 추출하고 장기 메모리를 큐레이트하는 스케줄 프로세스
Outcomes(퍼블릭 베타)	정의된 성공 기준에 대해 에이전트 실행을 채점하는 grader loop —— 「에이전트가 실제로 성공했나?」 간극을 메움
멀티 에이전트 오케스트레이션	하나의 태스크에서 여러 전문 에이전트를 조율
Claude Finance	10개 금융 특화 에이전트 스위트
Add-ins	Claude를 기존 앱 표면으로 확장

여기에 Claude for Small Business —— QuickBooks, PayPal, HubSpot, Canva, Docusign, Google Workspace, Microsoft 365 와의 사전 구축 통합 —— 비기술 운영자에게 에이전트 능력을 패키징.

전부 Claude Opus 4.7(올봄 초 코딩 벤치 선두를 탈환한 모델, 93 태스크 코딩 스위트에서 Opus 4.6 대비 약 +13%) 위에서 동작.

진짜 테마: 자율성 신뢰도, 모델 IQ가 아니다

과소평가된 전환: Anthropic이 여기서 파는 것은 더 똑똑한 모델이 아니라 —— 에이전트를 무인으로 돌릴 만큼 신뢰할 수 있게 만드는 인프라.

Outcomes는 「에이전트가 성공했는지 어떻게 아나?」의 답 —— grader loop가 에이전트 실행을 쏘고 잊기에서 측정·채점 가능한 단위로 바꾼다. 이것이 엔터프라이즈 배포의 장벽이지 원시 능력이 아니다.
Dreaming은 「재프롬프트 없이 에이전트가 시간이 지나며 좋아지려면?」의 답 —— 스케줄 메모리 큐레이션으로 세션을 가로질러 학습을 복리화.

둘이 합쳐 「한 번 작동하는 데모」와 「프로덕션에 배포하고 떠날 수 있는 에이전트」 사이 간극을 겨냥.

왜 중요한가

경쟁이 스택 위로 이동했다. 모델 품질(Opus 4.7 vs Gemini 3.5 Flash vs GPT)은 이제 기본기; 차별화는 에이전트 운영 계층 —— 오케스트레이션, 메모리, 평가, 통합. 이는 Gemini 3.5 Flash 기사를 반영: 원시 능력이 분기로 상품화되면 해자가 주변 시스템으로 이동.
Claude Finance + Small Business = 수직 패키징. Anthropic은 수평 API에서 패키징된 수직 에이전트 스위트로 이동. 가치 포착이 모델 API뿐 아니라 앱 계층에 있다는 베팅.
Outcomes가 가장 중요한 릴리스. 내장 grader loop는 기업이 에이전트의 「성공」을 정의하고 점수를 신뢰하게 한다. 에이전트 파일럿과 프로덕션의 차이.

Practitioner note

Claude 위에서 출시하는 빌더 대상:

에이전트를 스케일하기 전에 Outcomes를 채택. grader loop 없이 에이전트를 돌리면 신뢰성에서 계기 비행 중. 성공 기준을 정의하고 Outcomes를 연결하면 「대개 작동함」을 측정 가능한 SLA로 바꾼다. 이 이벤트에서 가장 고레버리지.
Dreaming은 메모리 아키텍처를 바꾼다. 에이전트 메모리/context를 수동 관리해왔다면, 스케줄 메모리 큐레이션이 자체 배관 일부를 대체할 수 있다. 메모리 인프라를 더 자작하기 전에 평가하라.
Claude for Small Business는 유통 신호. QuickBooks/HubSpot/M365 통합은 Anthropic이 비개발자 운영자를 직접 겨냥함을 의미. SMB용 에이전트 제품을 만든다면 이제 퍼스트파티 패키지 에이전트와 경쟁 —— 원시 능력이 아니라 워크플로 깊이로 차별화.

과소평가된 각도: 에이전트 플랫폼 전쟁은 신뢰성 도구로 이긴다, 모델 벤치마크가 아니라. Outcomes와 Dreaming은 화려하지 않다 —— grader와 메모리 큐레이션은 새 모델처럼 헤드라인이 안 된다. 하지만 그것들이 바로 에이전트 데모를 배포된 무인 프로덕션 시스템으로 바꾸는 것. 에이전트를 지루하고 신뢰할 수 있게 먼저 만드는 랩이 엔터프라이즈를 이긴다, 다음 벤치마크에서 누가 1등이든.