2026-06-18 — views

물리적 AI 시뮬레이션과 테스트 — 테슬라 섀도우 모드 vs Waymo CarCraft: 10억 마일 규모의 자율주행 검증

Waymo CarCraft 하루 150억 마일 시뮬레이션；테슬라 섀도우 모드 600만 FSD 차량 신호 수집。AV 안전 논증에 모두 필수。

물리적 AI 벤치마크 시리즈 148번 — 물리적 AI 시뮬레이션 및 테스트 인프라: 테슬라 섀도우 모드 vs Waymo CarCraft

시뮬레이션은 자율주행 개발의 비밀 무기다. 보행자가 자율주행차 앞에서 빨간 신호를 무시하는 시나리오는 실제 세계에서 약 100만 마일당 1회(추정치)밖에 발생하지 않는다. 이 시나리오에 대해 통계적 안전 신뢰도를 확립하기에 충분한 횟수를 테스트하려면 에지 케이스당 수년간의 주행이 필요할 것이다. 시뮬레이션은 이 타임라인을 획기적으로 단축한다: Waymo의 CarCraft는 하루 150억 마일의 시뮬레이션을 실행하며(Waymo 공개 공시), 수십 년 치의 실제 에지 케이스 축적을 매일 밤 지속적인 연산으로 압축한다. 테슬라의 섀도우 모드는 보완적인 접근법을 취한다 — 약 600만 대(추정치)의 FSD 지원 차량을 공도에서 지속적인 실제 센서 어레이로 활용하여, 드라이버의 결정이 FSD의 계획된 행동과 달라지는 모든 주행에서 신호를 수집한다.

본 기사는 물리적 AI 벤치마크 시리즈 148번으로, 시뮬레이션이 자율주행 개발에 필수적인 이유, 테슬라와 Waymo가 어떻게 근본적으로 다른 시뮬레이션 아키텍처를 구축했는지, 시뮬레이션과 현실의 격차가 각 회사의 안전 논증에 무엇을 의미하는지, 그리고 어떤 접근법이 어떤 차원에서 우위를 점하는지를 종합적으로 벤치마크한다.

“(추정치)“로 표시된 모든 수치는 독립적으로 검증된 1차 데이터가 아닌 공개 공시, 업계 연구, 애널리스트 추정치 및 보고된 데이터에서 도출되었다. 본 기사는 투자 조언을 구성하지 않는다.

1절 — 시뮬레이션이 자율주행 개발에 필수적인 이유

과제	실제 세계 테스트의 한계	시뮬레이션 해결책	규모 우위
희귀 에지 케이스	보행자가 자율주행차 앞에서 빨간 신호를 무시하는 시나리오는 약 100만 마일당 1회(추정치); 실제 세계 테스트는 시나리오당 수년이 필요	시뮬레이션은 몇 시간 내에 파라미터 변화와 함께 해당 시나리오를 수백만 번 생성 가능	희귀 이벤트에서 1000배 이상의 속도 우위
장애 주입 테스트	공도에서 센서 장애(카메라 차단, 라이다 방해)를 안전하게 테스트할 수 없음	시뮬레이션은 언제든 임의의 센서 장애를 주입하여 저하된 인식에 대한 시스템 반응 테스트	실제 세계에서는 불가능한 안전 테스트
회귀 테스트	AV 소프트웨어 변경 후 기존 시나리오를 손상시키지 않았음을 확인하려면 모든 이전 테스트 케이스를 재실행해야 함	시뮬레이션은 모든 코드 변경 후 모든 테스트 시나리오를 자동 재실행; AV를 위한 CI/CD	지속적 배포 검증
반사실 테스트	”차량이 0.5초 일찍 제동했다면?” 실제 사고를 재실행 불가	시뮬레이션은 파라미터 변화와 함께 임의의 사고를 재생; 사고 조사 지원	사후 학습 가속화
규모	테슬라는 약 600만 대의 FSD 차량(추정치); Waymo는 약 2,500대(추정치)	시뮬레이션은 효과적인 테스트 차대를 100~1000배 배증	Waymo는 특히 소규모 실제 차대를 보완하기 위해 시뮬레이션에 의존
새로운 시나리오 생성	인간 드라이버와 스턴트 퍼포머로 일부 시나리오 생성 가능; 비용이 많이 들고 느림	절차적 생성으로 무한한 시나리오 변형(조명, 날씨, 보행자 밀도, 차량 구성) 생성	무한한 시나리오 다양성

실제 마일과 시뮬레이션 중 하나만으로는 충분하지 않은 이유

실제 마일이 대체 불가능한 근본적인 이유가 있다: 실제 세계는 어떤 시뮬레이션 팀도 예상하지 못한 진정으로 새로운 시나리오를 생성한다. 인간의 운전 행동, 도로 인프라 장애, 예상치 못한 환경 조건은 야생에서만 나타나는 에지 케이스를 생성한다. 아무리 정교해도 시뮬레이션은 인간 설계자나 절차적 생성기가 파라미터화한 시나리오만 테스트할 수 있다.

반면, 필요한 통계적 신뢰 수준을 달성하기 위해 실제 마일만 의존하는 것도 현실적이지 않다. 랜드 연구소의 연구는 AV가 사망률에서 인간 드라이버보다 우수한 안전성을 통계적으로 입증하려면 약 110억 마일의 주행이 필요하다고 추정했다. 차량당 하루 100마일로 계산하면 1만 대 차대도 약 30년(추정치)이 소요된다. 시뮬레이션은 검증 타임라인을 단축하는 유일한 신뢰할 수 있는 방법이다.

올바른 아키텍처는 두 가지를 모두 사용한다: 실제 세계 주행으로 새로운 시나리오를 발견하고 기준 진실 검증을 제공하며, 시뮬레이션으로 발견된 시나리오를 철저히 테스트하고, 모든 코드 변경에 걸친 회귀 테스트를 수행하고, 공도에서 테스트하기에는 너무 위험하거나 너무 희귀한 적대적 에지 케이스를 생성한다.

2절 — 테슬라 섀도우 모드: 아키텍처와 규모

요소	세부 사항	비고
섀도우 모드란?	테슬라 FSD가 모든 FSD 지원 차량에서 드라이버 행동과 병렬로 사일런트 실행; FSD의 결정과 드라이버가 실제로 한 행동을 비교; 불일치를 기록	FSD가 활성화된 모든 테슬라가 지속적인 섀도우 모드 데이터 포인트; 약 600만 대(추정치) x 모든 주행
규모(추정치)	약 600만 대 FSD 차대(추정치) 전체에서 하루 수백만 건의 섀도우 모드 비교	AV 업계에서 단연 최대 규모의 실제 세계 섀도우 모드 데이터셋
섀도우 모드가 감지하는 것	FSD가 드라이버와 다른 결정을 내렸을 케이스; FSD가 더 강하게 제동했을 것, 더 일찍 회전했을 것 등	모든 FSD 편차가 FSD의 잘못을 나타내는 것은 아님; 일부는 FSD가 드라이버보다 더 보수적인 케이스; 라벨링을 위한 인간 검토 필요
섀도우 모드에서 Dojo의 역할	Dojo는 대규모로 섀도우 모드 비디오 클립을 처리; FSD를 인간 드라이버 행동에 일치하거나 초과하도록 훈련	섀도우 모드 데이터→Dojo 훈련→더 나은 FSD→더 나은 섀도우 모드 신호——플라이휠
한계: 기준 진실의 품질	섀도우 모드는 시뮬레이션이 아닌 실제 세계 센서 데이터를 사용; 하지만 “기준 진실”은 최적 행동이 아닌 드라이버 행동	드라이버 행동이 훈련 신호; 드라이버가 실수하면 FSD는 그 실수에서 학습
자동 라벨링 파이프라인	테슬라의 4D 라벨링(공간+시간)은 신경망을 사용하여 비디오 프레임을 자동 라벨링; 인간 라벨링 비용 절감	자동 라벨링 규모로 수백만 시간의 비디오 처리 가능; 인간 검토는 에지 케이스에 집중
시뮬레이션 vs 섀도우 모드	테슬라는 두 가지 모두 사용; 섀도우 모드는 실제 에지 케이스 제공; 시뮬레이션은 변화와 함께 대규모 재실행	보완적: 실제 세계가 시나리오 식별; 시뮬레이션이 철저히 테스트
개입 데이터	FSD 강제 개입(드라이버가 인수)마다 훈련 신호; 개입율 약 연간 절반씩 감소(추정치)	개입율은 섀도우 모드, Dojo, 시뮬레이션이 공동 최적화하는 출력 지표

섀도우 모드 플라이휠

테슬라의 섀도우 모드는 비교 가능한 규모의 설치된 차대 없이는 어떤 경쟁사도 복제하기 어려운 자기 강화 개선 루프를 만들어낸다. 테슬라 약 600만 대(추정치)의 FSD 지원 차량은 세계의 다른 어떤 AV 프로그램이 전체 역사에서 축적한 것보다 훨씬 많은 양의 실제 세계 섀도우 데이터를 매일 생성한다.

3절 — Waymo CarCraft: 아키텍처와 규모

요소	세부 사항	비고
CarCraft란?	Waymo의 내부 시뮬레이션 환경; 차량 에이전트, 보행자, 자전거 이용자, 에지 케이스 시나리오를 포함한 전체 도시 환경을 대규모로 시뮬레이션	Waymo는 CarCraft를 공개 공시; 세계에서 가장 정교한 AV 시뮬레이션 환경 중 하나로 설명됨
규모	Waymo는 하루 약 150억 시뮬레이션 마일 실행을 공시(Waymo 공시)	하루 150억 시뮬레이션 마일 vs 하루 약 5만 실제 마일(추정치) = 약 30만 배의 시뮬레이션 승수
충실도 접근법	차량의 고충실도 물리 시뮬레이션; 다른 에이전트(보행자, 자전거 이용자, 다른 차량)의 행동 모델링	에이전트 행동 모델링이 Waymo의 주요 차별화 요소; 다른 에이전트는 무작위가 아닌 실제처럼 행동
시나리오 소싱	실제 차대 사건→시뮬레이션 재생→파라미터 변화→철저한 테스트	모든 실제 세계의 불편 이벤트, 아찔한 상황, 또는 특이한 시나리오가 시뮬레이션 테스트 스위트가 됨
적대적 시나리오 생성	Waymo는 다른 에이전트가 가장 도전적인 방식으로 행동하는 적대적 시나리오 생성; 시스템 견고성 테스트	적대적 테스트: 최악의 타이밍에 무단횡단하는 보행자; 최소 경고 거리로 AV를 앞질러 끼어드는 차량
인식 시뮬레이션	센서 데이터 시뮬레이션(카메라, 라이다, 레이더), 날씨 효과, 조명 변화, 센서 저하 포함	센서 시뮬레이션 충실도가 가장 어려운 시뮬레이션 과제; 시뮬레이션 라이다 vs 실제 라이다는 여전히 격차 존재
폐루프 테스트	Waymo의 시뮬레이션은 폐루프 — AV의 결정이 시뮬레이션 환경에 영향; 다른 에이전트가 AV에 반응	폐루프로 시뮬레이션이 AV에 현실보다 쉬운 시나리오를 제공하는 “치팅” 방지
소프트웨어인더루프(SIL)	실제 프로덕션 AV 소프트웨어 스택을 시뮬레이션 내에서 실행; 단순화된 프록시 아님	SIL로 시뮬레이션 결과가 실제 세계 소프트웨어 동작으로 변환됨을 보장

4절 — 시뮬레이션과 현실의 격차

격차 유형	테슬라 과제	Waymo 과제	완화 방안
센서 충실도 격차	카메라 시뮬레이션은 실제 카메라(렌즈 왜곡, 노출, HDR 동작)와 일치해야 함; 개선 중이나 격차 존재	라이다 시뮬레이션은 카메라보다 더 어려움; 시뮬레이션 포인트 클라우드와 실제 센서 노이즈 패턴에 차이	양사: 신경 렌더링(NeRF 스타일)으로 실제 데이터에서 사실적인 센서 시뮬레이션 생성
롱테일 행동 격차	섀도우 모드는 실제 세계 희귀 이벤트 제공; 시뮬레이션은 재실행하나 진정으로 새로운 시나리오는 생성 불가	Waymo의 실제 차대가 작음; 에지 케이스를 위해 시뮬레이션에 더 많이 의존해야 함	양사 모두 절차적 생성 사용; 새로운 시나리오에는 실제 세계 데이터가 여전히 불가결
훈련 분포 격차	시뮬레이션으로 훈련된 모델은 실제 센서 데이터에서 다르게 동작할 수 있음(도메인 이동)	동일한 과제; 도메인 적응 기술 필요	양사: 주로 실제 세계 데이터로 훈련; 에지 케이스 증강에 시뮬레이션 사용
적대적 견고성	FSD는 주로 실제 세계에서 훈련; 적대적 시나리오 커버리지는 시뮬레이션 품질에 의존	CarCraft 적대적 테스트가 핵심 차별화 요소; 최악 케이스 에이전트 행동을 명시적으로 테스트	Waymo의 명시적 적대적 프로그램은 문서화된 우위
컴퓨팅 비용	하루 150억 시뮬레이션 마일은 대규모 컴퓨팅 필요; Dojo가 이 워크로드를 위해 설계됨	동일; CarCraft 처리량에는 Google TPU 규모 필요	양사 모두 컴퓨팅 규모 솔루션 보유; Waymo는 Google 인프라의 혜택
검증 완전성	시뮬레이션 마일이 몇 마일이어야 “충분히 안전”한가? 업계 표준 없음	동일한 과제; 시뮬레이션은 결코 완전할 수 없음	양사 모두 시뮬레이션+실제 세계+공식 안전 논증 사용

5절 — 시뮬레이션 벤치마크 스코어카드

차원	테슬라	Waymo	우위
시뮬레이션 규모	매우 높음 — 약 600만 대의 섀도우 모드 차량(추정치) x 일일 마일수; Dojo가 출력 처리	매우 높음 — 하루 150억 시뮬레이션 마일(Waymo 공시)	다른 접근법; Waymo의 시뮬레이션 볼륨이 더 높음; 테슬라의 실제 세계 섀도우 볼륨이 더 높음
섀도우 모드/실제 세계 신호	결정적 — 600만 대 차대(추정치) x 지속적 섀도우 모드 = 비길 데 없는 실제 세계 훈련 신호	실제 차대가 작음; 시뮬레이션으로 보완	테슬라
적대적 테스트 프로그램	공개 문서 적음	결정적 — CarCraft 적대적 시나리오가 핵심 방법론(Waymo 공시)	Waymo
폐루프 충실도	SIL과 실제 세계 검증 모두 사용	폐루프 SIL CarCraft가 업계 벤치마크	Waymo
센서 시뮬레이션 충실도	카메라 시뮬레이션 개선 중; 신경 렌더링 연구 활발	라이다 시뮬레이션이 카메라보다 더 어려움; Waymo가 많이 투자	대략 동등; 다른 센서
CI/CD 통합	테슬라는 FSD를 OTA로 배포; 시뮬레이션으로 회귀 테스트	Waymo는 배포 게이팅에 시뮬레이션 사용	양사 모두 성숙함

종합 평가

테슬라의 섀도우 모드는 약 600만 대(추정치) 규모로 AV 업계에서 가장 강력한 실제 세계 훈련 신호다. 이 규모의 차대에서 얻은 실제 주행 데이터량에 필적하는 AV 프로그램은 존재하지 않는다. Waymo의 CarCraft는 하루 150억 시뮬레이션 마일(Waymo 공시) 규모로 상업 AV 개발에서 가장 정교한 시뮬레이션 환경이다.

두 가지 접근법은 경쟁 관계가 아닌 보완 관계다. 테슬라는 실제 세계 데이터량과 섀도우 모드 신호의 풍부함에서 결정적으로 우세하다. Waymo는 시뮬레이션의 엄격성, 적대적 테스트 커버리지, 폐루프 충실도에서 결정적으로 우세하다. 두 가지 모두 완전한 AV 안전 논증에 불가결하며 — 이것이 바로 두 회사 모두 두 가지 접근법을 함께 사용하는 이유다.

참고: “(추정치)“로 표시된 모든 수치는 2026년 중반 기준 공개 공시, 업계 연구, 애널리스트 추정치 및 보고된 데이터에서 도출되었다. Waymo의 하루 150억 시뮬레이션 마일 수치는 Waymo의 공개 안전 공시에 기반한다. 본 기사는 투자 조언을 구성하지 않는다.