arXiv 2606.13672·2026-06-11 — 회 조회
WEAVER: 정확도·장기 일관성·고속 추론을 동시에 달성하는 로봇 조작용 세계 모델 (CMU)
Jain, Wu, Farebrother, Swamy, Bajcsy
WEAVER(CMU)는 로봇 조작을 위한 학습된 세계 모델로, 정확도-일관성-속도의 트릴레마를 해결한다. 단일 아키텍처에서 고정밀도·장기 일관성·실시간 추론을 실현하며, 최소한의 실제 환경 상호작용으로 정책 평가와 테스트 시 계획을 가능케 한다.
논문이 하는 일
arXiv:2606.13672 (cs.RO, 2026년 6월 11일 제출)는 카네기멜론대학교 로보틱스 그룹(Jain, Wu, Farebrother, Swamy, Bajcsy)에서 WEAVER——로봇 조작 태스크 전용으로 설계된 학습된 세계 모델——를 소개한다. 논문의 핵심 주장은 WEAVER가 저자들이 로보틱스의 세계 모델 트릴레마라고 부르는 것을 해결한다는 것이다. 기존 시스템이 정확도(생성된 궤적이 현실과 일치), 장기 일관성(모델이 여러 단계에 걸쳐 일관성 유지), 추론 속도(모델이 실시간 계획에 충분히 빠르게 동작) 사이에서 트레이드오프를 강요받는 현상이다.
로봇 세계 모델 분야의 선행 연구는 세 번째 속성을 희생시켜 하나 또는 두 개의 속성을 최적화해왔다. WEAVER는 세 가지 요건을 동시에 만족하는 통합 아키텍처로 제시된다.
아키텍처 개요
WEAVER는 계층적 잠재 공간 설계를 사용한다:
컴팩트한 상태 표현 — 원시 비디오 픽셀에서 작동하는 대신(비용이 큼), WEAVER는 물체 위치, 접촉 상태, 태스크 관련 기하학을 포착하는 컴팩트한 학습 표현으로 로봇 관련 상태를 인코딩한다.
멀티스케일 시간 아키텍처 — WEAVER는 두 개의 시간 처리 레이어를 사용한다: 단기 동역학(접촉력, 그리퍼 상태, 물체 관성)을 추적하는 고속 업데이트 레이어와, 장기 일관성(태스크 구조, 목표 상태, 가려짐 하에서의 물체 동일성)을 유지하는 저속 업데이트 레이어. 두 레이어는 크로스어텐션을 통해 정보를 공유해 고속 레이어가 저속 레이어의 드리프트를 수정하고 반대도 가능하다.
정확도 앵커링 — 롤아웃 중 주기적으로, WEAVER는 롤아웃을 리셋하는 대신 앵커를 잠재 궤적에 투영하는 학습된 정렬 모듈을 사용해 실제 로봇으로부터의 관측 상태에 잠재 예측을 앵커링한다. 이것은 단일 트랙 롤아웃 모델을 저하시키는 느린 드리프트 누적을 방지한다.
평가
논문은 표준 로봇 조작 벤치마크(MetaWorld, RoboMimic 변형, 커스텀 장기 조작 스위트)에서 WEAVER를 평가한다:
- 장기 조작 벤치마크 최고 수준 — WEAVER는 경쟁 모델이 일관성을 잃는 10단계 이상의 조작 시퀀스에서 선행 세계 모델을 능가한다
- 테스트 시 계획에 충분한 추론 속도 — 표준 워크스테이션 GPU에서 10 Hz 이상의 모델 예측 제어(MPC) 루프를 실행할 수 있는 속도의 잠재 공간 롤아웃
- 계획을 통한 정책 개선 — WEAVER 롤아웃으로 파인튜닝된 정책은 행동 복제 기준선 대비 측정 가능한 개선을 보여 WEAVER 롤아웃이 합성 정책 훈련 데이터로 충분히 신뢰할 수 있음을 입증
세계 모델이 조작에 중요한 이유
로봇 조작은 실제 세계 데이터만으로 학습하기 어렵다. 이유는: 실제 시도가 느리고 하드웨어를 마모시키며; 실패 사례가 비싼 조작 설정에 위험하고; 견고한 정책 학습에 필요한 상호작용 분포가 광범위하기 때문이다. 세계 모델은 합성 정책 훈련을 가능케 함으로써 이를 해결한다——세계 모델에서 수백만 건의 상상된 롤아웃을 생성하고, 합성 데이터로 정책을 훈련한 후, 최소한의 실제 파인튜닝으로 배포한다.
이 파이프라인의 병목은 세계 모델 품질이었다: 세계 모델이 현실에서 벗어나면 합성 훈련 데이터가 정책을 오염시킨다. WEAVER의 정확도 앵커링과 장기 일관성 속성은 드리프트 문제를 직접 해결한다.
실무자 노트
정책 클로닝, 오프라인 RL, 세계 모델 기반 계획 중 선택이 필요한 로봇 조작 시스템 구축자에게: WEAVER는 선행 모델을 MPC에 비실용적으로 만들었던 속도-일관성 트레이드오프를 해결함으로써 세계 모델 경로를 의미 있게 매력적으로 만든다. 실용적 테스트는 특정 조작 도메인에서 WEAVER의 정확도가 유지되는지 여부다. 먼저 실행할 어블레이션: 센서 스택(카메라 레이턴시, 캘리브레이션 오류, 물체 가려짐 패턴)에서의 정확도 앵커링이 궤적 일관성을 유지하는가, 아니면 계획을 불안정하게 하는 앵커링 오류를 도입하는가? 그것이 WEAVER를 프로덕션 조작 시스템에 채택하기 전의 핵심 실증적 질문이다.
덜 주목받는 관점
WEAVER의 장기 일관성 개선에는 논문이 강조하지 않는 함의가 있다: 데이터 효율성이다. 세계 모델이 50단계 조작 시퀀스에 걸쳐 충실하게 유지된다면, 유능한 정책을 훈련하기 위해 필요한 실제 데모가 훨씬 적어진다——세계 모델은 더 적은 앵커링된 관측에서 더 다양한 상상된 경험으로 외삽할 수 있다. 조작에서 실제 데이터 수집의 규모 법칙이 이 분야를 비싸게 만드는 것이다; 세계 모델 정확도의 어떤 아키텍처 개선도 필요한 물리 로봇 시도 횟수 감소로 직접 변환된다. WEAVER의 기여는 “추론 시 더 나은 계획”보다는 “로봇 시간 데이터 수집 예산을 절반으로 줄이기”에 가깝다——이 프레이밍은 물리 하드웨어를 운영하는 연구실에게 벤치마크 수치가 시사하는 것보다 더 가치 있다.