2026-06-18 — views

AV 시뮬레이션 — Waymo와 Tesla가 수십억 가상 마일로 자율 시스템을 훈련하는 방법

Waymo는 연간 200억 마일 시뮬레이션; Tesla는 Dojo로 600만 대 영상 학습 — 시뮬레이션이 AV 선두 격차를 만드는 핵심 승수다.

피지컬 AI 벤치마크 시리즈 제74편 — AV 시뮬레이션과 합성 데이터

실제 도로에서 그 순간을 기다리며 자율주행 차량이 보행자 신호 무시, 고속 주행 중 타이어 파열, 또는 갑자기 뛰어드는 어린이에 대응하는 방법을 가르칠 수는 없다. 시뮬레이션은 훈련 승수다 — AV 기업이 실제 차량이 위험에 직면하기 전에 소프트웨어 안에서 드물고 위험한 시나리오를 수십억 번 경험할 수 있게 해준다.

Waymo는 연간 약 200억 마일의 시뮬레이션 주행을 수행하는 것으로 추정된다 (추정값). Tesla는 Dojo 슈퍼컴퓨터를 통해 600만 대의 실제 차량에서 나온 영상으로 훈련한다. AV 선두와 추격자 사이의 격차는 단순히 주행 거리에 있지 않다 — 시뮬레이션 능력, 합성 훈련 데이터 규모, 그리고 실세계 엣지 케이스에서 시뮬레이션 훈련 환경까지의 루프 속도가 관건이다.

이 기사는 시뮬레이션 아키텍처, 합성 데이터 파이프라인, 그리고 시뮬레이션 능력이 피지컬 AI 램프 벤치마크에서 무엇을 의미하는지를 정리한다.

1절 — 시뮬레이션이 필수불가결한 이유

AV 훈련의 근본적인 문제는 롱테일이다: 실제 주행 시나리오의 분포는 매우 넓지만, 안전에 가장 중요한 시나리오 — 드물고 위험하고 아슬아슬한 사건들 — 는 유기적인 실제 데이터에서 극히 드물게 나타난다. 실제 도로에서 그런 사건이 발생하기를 기다리는 것은 실행 가능한 훈련 전략이 아니다.

훈련 과제	실제 도로 접근법	시뮬레이션 접근법
드물지만 중요한 사건	보행자가 빨간불을 무시하길 기다림 — 백만 마일당 한 번 발생할 수도	무작위화된 타이밍·속도·차량 위치로 수백만 건의 합성 신호 무시 시나리오 생성
치명적 시나리오	실제 차량을 자전거 이용자와 의도적으로 충돌시킬 수 없음	완전한 물리적 충실도로 충돌 시뮬레이션; 비용 없이 회피 정책 훈련
엣지 케이스 커버리지	실제 차대는 유기적으로 데이터를 축적 — 느리고 지리적으로 편향됨	어떤 지역·날씨·시간대·교통 밀도에 대해서도 데이터 생성 가능
정책 반복 속도	새 소프트웨어 배포 → 실제 마일 수집 → 평가: 사이클당 수 주	시뮬레이션에서 새 정책 테스트 → 수 시간 내 평가; 100배 빠른 반복
코너 케이스 (롱테일)	실제 데이터에서 드문 시나리오의 롱테일은 감당하기 어려울 만큼 김	시뮬레이션은 목표화된 롱테일 시나리오를 온디맨드로 생성 가능
안전성	실도로에서 진정한 위험 시나리오를 훈련하는 것은 불가능	시뮬레이션은 본질적으로 안전; 인원·장비에 대한 위험 없음

핵심 시뮬레이션 원칙: 실제 주행 1마일은 수천 가지 시뮬레이션 변형으로 곱해질 수 있다 — 다른 날씨, 다른 도로 이용자, 다른 초기 조건. 가장 효과적으로 시뮬레이션할 수 있는 기업은 실제 마일에만 의존하는 어떤 기업보다도 빠르게 정책 네트워크를 개선할 수 있다.

2절 — Waymo의 시뮬레이션 플랫폼: Carcraft

Waymo는 내부 시뮬레이션 플랫폼인 Carcraft를 운영하며, 실세계 AV 프로그램과 나란히 10년 이상에 걸쳐 구축해왔다. Carcraft는 보조 도구가 아니다 — Waymo의 주요 훈련 환경이다.

속성	세부 사항
명칭	Carcraft (Waymo의 내부 시뮬레이션 플랫폼)
규모	Waymo는 연간 약 200억 시뮬레이션 마일을 주행한다고 밝혔다 (추정값)
아키텍처	고충실도 물리 시뮬레이션; 현실적인 센서 모델링 (LIDAR 포인트 클라우드·카메라 렌더링·레이더 반사); 다른 차량·보행자·자전거 이용자를 위한 에이전트 행동 모델
센서 시뮬레이션	Waymo는 전체 센서 스위트를 시뮬레이션 — 시뮬레이션된 LIDAR 포인트 클라우드는 실제 인식 스택이 수정 없이 처리할 수 있을 만큼 물리적으로 정확해야 함
시나리오 생성	실제 주행 데이터를 시뮬레이션에 피드백하여 실도로에서 마주친 엣지 케이스를 체계적으로 변형 생성
에이전트 행동	Waymo 시뮬레이션의 다른 차량과 보행자는 실세계 관측에서 도출한 보정된 행동 분포로 모델링
인프라	Google Cloud TPU에서 실행 (Google의 Waymo 소유로 대규모 컴퓨팅 접근 가능); 어떤 산업에서도 가장 큰 전용 시뮬레이션 컴퓨팅 클러스터 중 하나로 추정 (추정값)
리얼→심 루프	실제 Waymo 차량이 예상치 못한 상황을 마주치면 해당 시나리오가 자동으로 시뮬레이션에 유입되어 훈련 및 회귀 테스트에 사용됨

리얼→심 루프는 Waymo의 구조적 우위다: 모든 실세계 엣지 케이스는 수 시간 내에 시뮬레이션 훈련 데이터가 된다. 샌프란시스코에서 드문 보행자 행동을 마주친 차량은 해당 시나리오의 수천 가지 합성 변형 생성을 트리거할 수 있다 — 다른 속도·다른 조명·다른 날씨 — 다음 소프트웨어 업데이트가 출시되기 전에 완료된다.

Carcraft의 규모는 실세계 프로그램에서는 불가능한 수준의 회귀 테스트도 가능하게 한다. Waymo는 소프트웨어 업데이트를 출시할 때 실제 차량이 업데이트된 코드를 실행하기 전에 수만 개의 이전 기록 시나리오에 대한 시뮬레이션 회귀 테스트를 통과해야 한다. 이것이 시뮬레이션 안전망이다.

3절 — Tesla의 접근법: 실제 영상 플러스 Dojo

Tesla의 훈련 철학은 Waymo와 근본적으로 다르다. Waymo가 합성 세계를 구축한다면 Tesla는 실제 세계를 수확한다.

속성	Tesla	Waymo
주요 훈련 데이터	600만 대 이상 차대의 실제 영상 (페타바이트 규모의 실세계 카메라 영상)	약 1,500대 AV 차량의 시뮬레이션 플러스 실주행 마일
시뮬레이션 역할	보조적 — Tesla는 특정 시나리오에서 시뮬레이션을 사용하지만 실제 영상이 주	주요 — 연간 수백억 시뮬레이션 마일 (추정값)
Dojo	대규모 영상 훈련을 위해 특별히 제작된 슈퍼컴퓨터; 타일 간 대역폭에 최적화된 커스텀 D1 칩	Google Cloud TPU 사용 (Google 모회사 관계)
Dojo D1 칩	커스텀 7nm 칩; 362 TFLOPS FP16; 칩 간 900 GB/s 상호 연결 — 분산 영상 처리용으로 설계	해당 없음
훈련 목표	8개 카메라 피드를 직접 주행 결정에 매핑하는 신경망 훈련 (대규모 엔드투엔드 또는 모방 학습)	인식·예측·계획 모듈을 개별적으로 훈련; 시뮬레이션이 각각을 커버
장점	실세계 데이터 분포 — 모델이 현실에서 실제 엣지 케이스를 경험	어떤 시나리오에도 무제한 합성 데이터 생성 가능; 차대 규모에 제한 없음
단점	실제로 발생하길 기다리지 않고서는 드물고 위험한 시나리오를 훈련할 수 없음	시뮬레이션 충실도 격차 — 시뮬레이션 센서 데이터가 실제 센서 데이터와 완전히 동일하지 않음

Dojo는 Waymo의 TPU 클러스터 접근에 대한 Tesla의 답이다. D1 칩은 Tesla가 직면한 특정 컴퓨팅 병목 — 수백만 대 차량의 페타바이트 연속 영상을 처리하고 그 데이터로 대형 신경망을 실시간 훈련하는 것 — 을 위해 설계되었다. 기존 GPU 클러스터는 분산 영상 훈련의 메모리 대역폭 요구에 어려움을 겪는데, D1의 900 GB/s 칩 간 상호 연결은 이 특정 병목을 해소하기 위해 설계되었다.

Tesla의 실제 데이터 플라이휠은 다른 종류의 복리 우위를 만든다. Tesla 차주가 운전하는 모든 FSD 마일이 훈련 데이터를 생성한다. 차대가 성장하면서 훈련 데이터도 비례하여 성장한다 — 중요한 것은 그것이 모델이 실제로 배포될 시나리오의 정확한 분포로 성장한다는 점이다. Waymo는 시뮬레이션에서 그 분포를 엔지니어링해야 한다; Tesla는 단순히 수집하고 있다.

4절 — 심→리얼 격차: 미해결 문제

시뮬레이션 중심 접근법의 근본적인 한계는 심→리얼 격차다: 시뮬레이션 데이터만으로 훈련된 모델은 시뮬레이션과 미묘하게 다른 실제 센서 입력에 배포될 때 성능이 저하될 수 있다.

과제	설명	현황
센서 충실도	시뮬레이션된 LIDAR 포인트 클라우드는 모델이 심에서 리얼로 일반화할 수 있도록 실제 LIDAR 포인트 클라우드와 충분히 가까워야 함	Waymo는 고충실도 센서 시뮬레이션에 대규모 투자; 아직 완벽하지 않음 — 심 데이터만으로 훈련된 모델은 실데이터에서 성능 저하
행동 현실성	시뮬레이션된 보행자와 드라이버가 실제 사람처럼 행동해야 함	실데이터에서 보정된 행동 모델이 도움이 됨; 극단적인 드문 행동은 여전히 모델링하기 어려움
도메인 랜덤화	전략: 심 파라미터를 폭넓게 무작위화하여 모델이 어떤 심 변형에도 강건하게 학습 → 실세계에 더 잘 전이	일부 시나리오에는 효과적; 다른 것에는 불충분
NeRF와 가우시안 스플래팅	새 접근법: 실제 장면을 카메라 영상에서 3D 신경 표현으로 재구성; 새로운 시점에서 재렌더링하여 훈련 데이터 생성	Waymo·Nvidia 등이 신경 장면 재구성으로 심→리얼 격차 축소 중; 유망하지만 컴퓨팅 집약적
UniSim과 GAIA	Waymo (UniSim) 등이 실세계 입력에서 포토리얼리스틱한 센서 데이터를 생성하는 신경 시뮬레이터를 구축 중	활발한 연구 영역; 수작업 물리 시뮬레이션 의존도 감소

도메인 랜덤화 — 시뮬레이션 파라미터에 의도적으로 변형을 도입하는 것 — 는 심→리얼 전이를 위한 첫 번째 체계적 전략이었다. 조명·텍스처·날씨·센서 노이즈가 무작위화된 시뮬레이션으로 훈련함으로써 모델은 특정 시뮬레이터의 구체적인 결함에 더 강건해진다. 그러나 도메인 랜덤화만으로는 모든 조건에서 생산 AV 배포에 필요한 수준까지 격차를 줄이지 못했다.

NeRF와 가우시안 스플래팅 접근법은 근본적으로 다른 전략을 나타낸다: 합성 세계를 처음부터 구축하는 대신, 실세계를 3D 신경 표현으로 포착하고 어떤 시점이나 어떤 조건에서도 재렌더링한다. Waymo 차량이 샌프란시스코에서 기록한 장면을 빗속에서, 밤에 재렌더링하고, 가려진 보행자를 추가할 수 있다 — 물리 시뮬레이션 파이프라인이 그러한 조건을 처음부터 모델링할 필요 없이.

5절 — 경쟁 해자로서의 시뮬레이션

시뮬레이션 능력은 AV 경쟁에서 주요 경쟁 차원이 되었다. 더 빠르고·더 정확하게·더 대규모로 시뮬레이션할 수 있는 기업은 실세계 테스트에 더 많이 의존하는 어떤 경쟁자보다도 빠르게 정책을 반복할 수 있다.

차원	선두	중요한 이유
연간 시뮬레이션 마일	Waymo (약 200억 마일, 추정값)	더 많은 시뮬레이션 마일 = 더 많은 엣지 케이스 커버리지 = 더 안전한 실세계 성능
시뮬레이션 컴퓨팅	Waymo (Google TPU 접근) vs Tesla (Dojo)	컴퓨팅 규모가 정책 반복 속도를 결정
리얼→심 파이프라인	Waymo (Carcraft 리얼→심 루프)	실 엣지 케이스의 시뮬레이션 유입이 빠를수록 개선이 빠름
신경 시뮬레이션	활발한 경쟁 (Waymo UniSim·Nvidia COSMOS 등)	다음 프런티어: 포토리얼리스틱 신경 시뮬레이터가 심→리얼 격차 해소
시나리오 라이브러리	Waymo (10년 이상에 걸쳐 구축된 최대 라이브러리)	깊은 시나리오 라이브러리는 복제하기 어려움 — 구축에 수년이 걸림
데이터 플라이휠 통합	Tesla (실 차대 → 실 영상 → 훈련 → 더 나은 모델 → 더 큰 차대)	Tesla의 우위: 대규모 실데이터; 시뮬레이션은 보완적

Nvidia COSMOS (2025년): Nvidia는 2025년 초 COSMOS — 피지컬 AI 시뮬레이션을 위한 월드 파운데이션 모델 — 를 출시했다. COSMOS는 로보틱스 및 AV 시스템 훈련을 위한 포토리얼리스틱 합성 영상을 생성한다. 이것은 제품으로 이용 가능한 최초의 범용 신경 세계 시뮬레이터를 나타낸다 — Waymo나 Tesla 같은 사내 시뮬레이션 인프라 없이도 고충실도 시뮬레이션을 이용할 수 있게 될 가능성이 있다. 소규모 AV 프로그램에게 COSMOS는 고품질 합성 데이터 생성의 진입 장벽을 수년간의 공학 투자에서 컴퓨팅 예산의 문제로 낮춘다.

시나리오 라이브러리 우위는 특히 지속적이다. Waymo는 10년 이상에 걸쳐 엣지 케이스·드문 사건·코너 시나리오의 라이브러리를 구축해왔다 — 각각이 태그되고 분류되며 실차대가 새로운 상황을 마주칠 때마다 지속적으로 추가된다. 오늘 시뮬레이션 경쟁에 진입하는 경쟁자는 Waymo가 이미 목록화한 모든 엣지 케이스를 처음부터 엔지니어링해야 하고, 물리 시뮬레이션 인프라도 구축해야 한다. 이것은 매년의 운영과 함께 더 커지는 복리 해자를 형성한다.

6절 — 이 시리즈에 대하여

이것은 피지컬 AI 벤치마크 시리즈 제74편이다. 이전 기사들은 램프 인덱스, 휴머노이드 경쟁, 단위 경제학, 글로벌 경쟁, HD 매핑, 소프트웨어와 OTA, 소비자 수요, 경쟁 해자, 사이버캡 대 Model Y, 안전 데이터, Waymo Gen 6, Optimus 제조, 스코어카드 스냅샷, 2030년 예측 시나리오, 투자자 프레임워크, 도시 확장 파이프라인, Tesla FSD 주 승인 지도, AV 날씨와 기후 제약, 인재 전쟁, 규제 달력, 로보택시 요금 책정, 휴머노이드 배포 추적기, 공급망 분석, 소비자 채택 수요 인덱스, 평가와 IPO 분석, 피지컬 AI 2026 중간 점검, AV 단위 경제학 마일당 비용 분석, AV 데이터 플라이휠 비교, AV 사이버보안 공격 면, 피지컬 AI 공급망, AV 차대 운영, AV 보험과 책임 진화, 피지컬 AI의 전 생애주기 환경 비용, 노인 및 장애인을 위한 접근성 레이어, 매핑 아키텍처 비교, 중국 AV 경쟁을 다루었다.

이 기사는 시뮬레이션 차원을 추가한다: 합성 훈련 인프라가 AV 리더들에게 실제 차대가 생성할 수 있는 것 이상의 속도로 훈련 경험을 축적하게 하는 방식 — 그리고 향후 5년간 시뮬레이션 우위를 누가 쥐는지를 형성할 수도 있는 신경 세계 모델의 프런티어.

주의: 시뮬레이션 마일 추정치, 차대 규모, 칩 사양, 경쟁 평가는 “(추정값)“으로 표시되며 공개적으로 이용 가능한 정보, 기업 공시, 업계 분석을 반영한다. 이 기사는 투자 조언을 구성하지 않는다.