2026-05-21 — views
Anthropic Code with Claude 런던: 에이전트 플랫폼 성숙 —— Dreaming, Outcomes, Finance
읽어야 하는 이유 테마는 「더 나은 모델」에서 「신뢰할 수 있는 자율성」으로의 전환. Outcomes(에이전트 실행을 채점하는 grader loop)와 Dreaming(스케줄 메모리 큐레이션)은 무인으로 돌릴 수 있는 에이전트의 인프라 —— 그것이 엔터프라이즈 배포의 진짜 장벽이지 모델 IQ가 아니다.
Code with Claude 런던(5/20-21)에서 Anthropic이 5개 에이전트 기능 —— Dreaming, Outcomes, 멀티 에이전트 오케스트레이션, Claude Finance, Add-ins —— 와 Small Business 통합을 출시.
Anthropic은 Code with Claude 개발자 이벤트를 런던(5/20-21) 으로 가져와, 에이전트 플랫폼에서 프로덕션에 진짜 중요한 부분을 출시했다 —— 새 플래그십 모델이 아니라 에이전트 주변의 신뢰성 스캐폴딩.
5개 에이전트 기능
| 기능 | 역할 |
|---|---|
| Dreaming(리서치 프리뷰) | 과거 에이전트 세션 + 메모리 스토어를 검토해 패턴을 추출하고 장기 메모리를 큐레이트하는 스케줄 프로세스 |
| Outcomes(퍼블릭 베타) | 정의된 성공 기준에 대해 에이전트 실행을 채점하는 grader loop —— 「에이전트가 실제로 성공했나?」 간극을 메움 |
| 멀티 에이전트 오케스트레이션 | 하나의 태스크에서 여러 전문 에이전트를 조율 |
| Claude Finance | 10개 금융 특화 에이전트 스위트 |
| Add-ins | Claude를 기존 앱 표면으로 확장 |
여기에 Claude for Small Business —— QuickBooks, PayPal, HubSpot, Canva, Docusign, Google Workspace, Microsoft 365 와의 사전 구축 통합 —— 비기술 운영자에게 에이전트 능력을 패키징.
전부 Claude Opus 4.7(올봄 초 코딩 벤치 선두를 탈환한 모델, 93 태스크 코딩 스위트에서 Opus 4.6 대비 약 +13%) 위에서 동작.
진짜 테마: 자율성 신뢰도, 모델 IQ가 아니다
과소평가된 전환: Anthropic이 여기서 파는 것은 더 똑똑한 모델이 아니라 —— 에이전트를 무인으로 돌릴 만큼 신뢰할 수 있게 만드는 인프라.
- Outcomes는 「에이전트가 성공했는지 어떻게 아나?」의 답 —— grader loop가 에이전트 실행을 쏘고 잊기에서 측정·채점 가능한 단위로 바꾼다. 이것이 엔터프라이즈 배포의 장벽이지 원시 능력이 아니다.
- Dreaming은 「재프롬프트 없이 에이전트가 시간이 지나며 좋아지려면?」의 답 —— 스케줄 메모리 큐레이션으로 세션을 가로질러 학습을 복리화.
둘이 합쳐 「한 번 작동하는 데모」와 「프로덕션에 배포하고 떠날 수 있는 에이전트」 사이 간극을 겨냥.
왜 중요한가
- 경쟁이 스택 위로 이동했다. 모델 품질(Opus 4.7 vs Gemini 3.5 Flash vs GPT)은 이제 기본기; 차별화는 에이전트 운영 계층 —— 오케스트레이션, 메모리, 평가, 통합. 이는 Gemini 3.5 Flash 기사를 반영: 원시 능력이 분기로 상품화되면 해자가 주변 시스템으로 이동.
- Claude Finance + Small Business = 수직 패키징. Anthropic은 수평 API에서 패키징된 수직 에이전트 스위트로 이동. 가치 포착이 모델 API뿐 아니라 앱 계층에 있다는 베팅.
- Outcomes가 가장 중요한 릴리스. 내장 grader loop는 기업이 에이전트의 「성공」을 정의하고 점수를 신뢰하게 한다. 에이전트 파일럿과 프로덕션의 차이.
Practitioner note
Claude 위에서 출시하는 빌더 대상:
- 에이전트를 스케일하기 전에 Outcomes를 채택. grader loop 없이 에이전트를 돌리면 신뢰성에서 계기 비행 중. 성공 기준을 정의하고 Outcomes를 연결하면 「대개 작동함」을 측정 가능한 SLA로 바꾼다. 이 이벤트에서 가장 고레버리지.
- Dreaming은 메모리 아키텍처를 바꾼다. 에이전트 메모리/context를 수동 관리해왔다면, 스케줄 메모리 큐레이션이 자체 배관 일부를 대체할 수 있다. 메모리 인프라를 더 자작하기 전에 평가하라.
- Claude for Small Business는 유통 신호. QuickBooks/HubSpot/M365 통합은 Anthropic이 비개발자 운영자를 직접 겨냥함을 의미. SMB용 에이전트 제품을 만든다면 이제 퍼스트파티 패키지 에이전트와 경쟁 —— 원시 능력이 아니라 워크플로 깊이로 차별화.
과소평가된 각도: 에이전트 플랫폼 전쟁은 신뢰성 도구로 이긴다, 모델 벤치마크가 아니라. Outcomes와 Dreaming은 화려하지 않다 —— grader와 메모리 큐레이션은 새 모델처럼 헤드라인이 안 된다. 하지만 그것들이 바로 에이전트 데모를 배포된 무인 프로덕션 시스템으로 바꾸는 것. 에이전트를 지루하고 신뢰할 수 있게 먼저 만드는 랩이 엔터프라이즈를 이긴다, 다음 벤치마크에서 누가 1등이든.
출처
- Claude Opus 4.7 — Anthropic ↗
- Anthropic releases Claude Opus 4.7, retaking the LLM lead — VentureBeat ↗
- Introducing Claude Opus 4.7 in Amazon Bedrock — AWS ↗
- Anthropic release notes — May 2026 ↗