Skip to content
AI-Daily-Builder

2026-06-18 views

물리적 AI 시뮬레이션과 테스트 — 테슬라 섀도우 모드 vs Waymo CarCraft: 10억 마일 규모의 자율주행 검증

Waymo CarCraft 하루 150억 마일 시뮬레이션;테슬라 섀도우 모드 600만 FSD 차량 신호 수집。AV 안전 논증에 모두 필수。

물리적 AI 벤치마크 시리즈 148번 — 물리적 AI 시뮬레이션 및 테스트 인프라: 테슬라 섀도우 모드 vs Waymo CarCraft

시뮬레이션은 자율주행 개발의 비밀 무기다. 보행자가 자율주행차 앞에서 빨간 신호를 무시하는 시나리오는 실제 세계에서 약 100만 마일당 1회(추정치)밖에 발생하지 않는다. 이 시나리오에 대해 통계적 안전 신뢰도를 확립하기에 충분한 횟수를 테스트하려면 에지 케이스당 수년간의 주행이 필요할 것이다. 시뮬레이션은 이 타임라인을 획기적으로 단축한다: Waymo의 CarCraft는 하루 150억 마일의 시뮬레이션을 실행하며(Waymo 공개 공시), 수십 년 치의 실제 에지 케이스 축적을 매일 밤 지속적인 연산으로 압축한다. 테슬라의 섀도우 모드는 보완적인 접근법을 취한다 — 약 600만 대(추정치)의 FSD 지원 차량을 공도에서 지속적인 실제 센서 어레이로 활용하여, 드라이버의 결정이 FSD의 계획된 행동과 달라지는 모든 주행에서 신호를 수집한다.

본 기사는 물리적 AI 벤치마크 시리즈 148번으로, 시뮬레이션이 자율주행 개발에 필수적인 이유, 테슬라와 Waymo가 어떻게 근본적으로 다른 시뮬레이션 아키텍처를 구축했는지, 시뮬레이션과 현실의 격차가 각 회사의 안전 논증에 무엇을 의미하는지, 그리고 어떤 접근법이 어떤 차원에서 우위를 점하는지를 종합적으로 벤치마크한다.

“(추정치)“로 표시된 모든 수치는 독립적으로 검증된 1차 데이터가 아닌 공개 공시, 업계 연구, 애널리스트 추정치 및 보고된 데이터에서 도출되었다. 본 기사는 투자 조언을 구성하지 않는다.


1절 — 시뮬레이션이 자율주행 개발에 필수적인 이유

과제실제 세계 테스트의 한계시뮬레이션 해결책규모 우위
희귀 에지 케이스보행자가 자율주행차 앞에서 빨간 신호를 무시하는 시나리오는 약 100만 마일당 1회(추정치); 실제 세계 테스트는 시나리오당 수년이 필요시뮬레이션은 몇 시간 내에 파라미터 변화와 함께 해당 시나리오를 수백만 번 생성 가능희귀 이벤트에서 1000배 이상의 속도 우위
장애 주입 테스트공도에서 센서 장애(카메라 차단, 라이다 방해)를 안전하게 테스트할 수 없음시뮬레이션은 언제든 임의의 센서 장애를 주입하여 저하된 인식에 대한 시스템 반응 테스트실제 세계에서는 불가능한 안전 테스트
회귀 테스트AV 소프트웨어 변경 후 기존 시나리오를 손상시키지 않았음을 확인하려면 모든 이전 테스트 케이스를 재실행해야 함시뮬레이션은 모든 코드 변경 후 모든 테스트 시나리오를 자동 재실행; AV를 위한 CI/CD지속적 배포 검증
반사실 테스트”차량이 0.5초 일찍 제동했다면?” 실제 사고를 재실행 불가시뮬레이션은 파라미터 변화와 함께 임의의 사고를 재생; 사고 조사 지원사후 학습 가속화
규모테슬라는 약 600만 대의 FSD 차량(추정치); Waymo는 약 2,500대(추정치)시뮬레이션은 효과적인 테스트 차대를 100~1000배 배증Waymo는 특히 소규모 실제 차대를 보완하기 위해 시뮬레이션에 의존
새로운 시나리오 생성인간 드라이버와 스턴트 퍼포머로 일부 시나리오 생성 가능; 비용이 많이 들고 느림절차적 생성으로 무한한 시나리오 변형(조명, 날씨, 보행자 밀도, 차량 구성) 생성무한한 시나리오 다양성

실제 마일과 시뮬레이션 중 하나만으로는 충분하지 않은 이유

실제 마일이 대체 불가능한 근본적인 이유가 있다: 실제 세계는 어떤 시뮬레이션 팀도 예상하지 못한 진정으로 새로운 시나리오를 생성한다. 인간의 운전 행동, 도로 인프라 장애, 예상치 못한 환경 조건은 야생에서만 나타나는 에지 케이스를 생성한다. 아무리 정교해도 시뮬레이션은 인간 설계자나 절차적 생성기가 파라미터화한 시나리오만 테스트할 수 있다.

반면, 필요한 통계적 신뢰 수준을 달성하기 위해 실제 마일만 의존하는 것도 현실적이지 않다. 랜드 연구소의 연구는 AV가 사망률에서 인간 드라이버보다 우수한 안전성을 통계적으로 입증하려면 약 110억 마일의 주행이 필요하다고 추정했다. 차량당 하루 100마일로 계산하면 1만 대 차대도 약 30년(추정치)이 소요된다. 시뮬레이션은 검증 타임라인을 단축하는 유일한 신뢰할 수 있는 방법이다.

올바른 아키텍처는 두 가지를 모두 사용한다: 실제 세계 주행으로 새로운 시나리오를 발견하고 기준 진실 검증을 제공하며, 시뮬레이션으로 발견된 시나리오를 철저히 테스트하고, 모든 코드 변경에 걸친 회귀 테스트를 수행하고, 공도에서 테스트하기에는 너무 위험하거나 너무 희귀한 적대적 에지 케이스를 생성한다.


2절 — 테슬라 섀도우 모드: 아키텍처와 규모

요소세부 사항비고
섀도우 모드란?테슬라 FSD가 모든 FSD 지원 차량에서 드라이버 행동과 병렬로 사일런트 실행; FSD의 결정과 드라이버가 실제로 한 행동을 비교; 불일치를 기록FSD가 활성화된 모든 테슬라가 지속적인 섀도우 모드 데이터 포인트; 약 600만 대(추정치) x 모든 주행
규모(추정치)약 600만 대 FSD 차대(추정치) 전체에서 하루 수백만 건의 섀도우 모드 비교AV 업계에서 단연 최대 규모의 실제 세계 섀도우 모드 데이터셋
섀도우 모드가 감지하는 것FSD가 드라이버와 다른 결정을 내렸을 케이스; FSD가 더 강하게 제동했을 것, 더 일찍 회전했을 것 등모든 FSD 편차가 FSD의 잘못을 나타내는 것은 아님; 일부는 FSD가 드라이버보다 더 보수적인 케이스; 라벨링을 위한 인간 검토 필요
섀도우 모드에서 Dojo의 역할Dojo는 대규모로 섀도우 모드 비디오 클립을 처리; FSD를 인간 드라이버 행동에 일치하거나 초과하도록 훈련섀도우 모드 데이터→Dojo 훈련→더 나은 FSD→더 나은 섀도우 모드 신호——플라이휠
한계: 기준 진실의 품질섀도우 모드는 시뮬레이션이 아닌 실제 세계 센서 데이터를 사용; 하지만 “기준 진실”은 최적 행동이 아닌 드라이버 행동드라이버 행동이 훈련 신호; 드라이버가 실수하면 FSD는 그 실수에서 학습
자동 라벨링 파이프라인테슬라의 4D 라벨링(공간+시간)은 신경망을 사용하여 비디오 프레임을 자동 라벨링; 인간 라벨링 비용 절감자동 라벨링 규모로 수백만 시간의 비디오 처리 가능; 인간 검토는 에지 케이스에 집중
시뮬레이션 vs 섀도우 모드테슬라는 두 가지 모두 사용; 섀도우 모드는 실제 에지 케이스 제공; 시뮬레이션은 변화와 함께 대규모 재실행보완적: 실제 세계가 시나리오 식별; 시뮬레이션이 철저히 테스트
개입 데이터FSD 강제 개입(드라이버가 인수)마다 훈련 신호; 개입율 약 연간 절반씩 감소(추정치)개입율은 섀도우 모드, Dojo, 시뮬레이션이 공동 최적화하는 출력 지표

섀도우 모드 플라이휠

테슬라의 섀도우 모드는 비교 가능한 규모의 설치된 차대 없이는 어떤 경쟁사도 복제하기 어려운 자기 강화 개선 루프를 만들어낸다. 테슬라 약 600만 대(추정치)의 FSD 지원 차량은 세계의 다른 어떤 AV 프로그램이 전체 역사에서 축적한 것보다 훨씬 많은 양의 실제 세계 섀도우 데이터를 매일 생성한다.


3절 — Waymo CarCraft: 아키텍처와 규모

요소세부 사항비고
CarCraft란?Waymo의 내부 시뮬레이션 환경; 차량 에이전트, 보행자, 자전거 이용자, 에지 케이스 시나리오를 포함한 전체 도시 환경을 대규모로 시뮬레이션Waymo는 CarCraft를 공개 공시; 세계에서 가장 정교한 AV 시뮬레이션 환경 중 하나로 설명됨
규모Waymo는 하루 약 150억 시뮬레이션 마일 실행을 공시(Waymo 공시)하루 150억 시뮬레이션 마일 vs 하루 약 5만 실제 마일(추정치) = 약 30만 배의 시뮬레이션 승수
충실도 접근법차량의 고충실도 물리 시뮬레이션; 다른 에이전트(보행자, 자전거 이용자, 다른 차량)의 행동 모델링에이전트 행동 모델링이 Waymo의 주요 차별화 요소; 다른 에이전트는 무작위가 아닌 실제처럼 행동
시나리오 소싱실제 차대 사건→시뮬레이션 재생→파라미터 변화→철저한 테스트모든 실제 세계의 불편 이벤트, 아찔한 상황, 또는 특이한 시나리오가 시뮬레이션 테스트 스위트가 됨
적대적 시나리오 생성Waymo는 다른 에이전트가 가장 도전적인 방식으로 행동하는 적대적 시나리오 생성; 시스템 견고성 테스트적대적 테스트: 최악의 타이밍에 무단횡단하는 보행자; 최소 경고 거리로 AV를 앞질러 끼어드는 차량
인식 시뮬레이션센서 데이터 시뮬레이션(카메라, 라이다, 레이더), 날씨 효과, 조명 변화, 센서 저하 포함센서 시뮬레이션 충실도가 가장 어려운 시뮬레이션 과제; 시뮬레이션 라이다 vs 실제 라이다는 여전히 격차 존재
폐루프 테스트Waymo의 시뮬레이션은 폐루프 — AV의 결정이 시뮬레이션 환경에 영향; 다른 에이전트가 AV에 반응폐루프로 시뮬레이션이 AV에 현실보다 쉬운 시나리오를 제공하는 “치팅” 방지
소프트웨어인더루프(SIL)실제 프로덕션 AV 소프트웨어 스택을 시뮬레이션 내에서 실행; 단순화된 프록시 아님SIL로 시뮬레이션 결과가 실제 세계 소프트웨어 동작으로 변환됨을 보장

4절 — 시뮬레이션과 현실의 격차

격차 유형테슬라 과제Waymo 과제완화 방안
센서 충실도 격차카메라 시뮬레이션은 실제 카메라(렌즈 왜곡, 노출, HDR 동작)와 일치해야 함; 개선 중이나 격차 존재라이다 시뮬레이션은 카메라보다 더 어려움; 시뮬레이션 포인트 클라우드와 실제 센서 노이즈 패턴에 차이양사: 신경 렌더링(NeRF 스타일)으로 실제 데이터에서 사실적인 센서 시뮬레이션 생성
롱테일 행동 격차섀도우 모드는 실제 세계 희귀 이벤트 제공; 시뮬레이션은 재실행하나 진정으로 새로운 시나리오는 생성 불가Waymo의 실제 차대가 작음; 에지 케이스를 위해 시뮬레이션에 더 많이 의존해야 함양사 모두 절차적 생성 사용; 새로운 시나리오에는 실제 세계 데이터가 여전히 불가결
훈련 분포 격차시뮬레이션으로 훈련된 모델은 실제 센서 데이터에서 다르게 동작할 수 있음(도메인 이동)동일한 과제; 도메인 적응 기술 필요양사: 주로 실제 세계 데이터로 훈련; 에지 케이스 증강에 시뮬레이션 사용
적대적 견고성FSD는 주로 실제 세계에서 훈련; 적대적 시나리오 커버리지는 시뮬레이션 품질에 의존CarCraft 적대적 테스트가 핵심 차별화 요소; 최악 케이스 에이전트 행동을 명시적으로 테스트Waymo의 명시적 적대적 프로그램은 문서화된 우위
컴퓨팅 비용하루 150억 시뮬레이션 마일은 대규모 컴퓨팅 필요; Dojo가 이 워크로드를 위해 설계됨동일; CarCraft 처리량에는 Google TPU 규모 필요양사 모두 컴퓨팅 규모 솔루션 보유; Waymo는 Google 인프라의 혜택
검증 완전성시뮬레이션 마일이 몇 마일이어야 “충분히 안전”한가? 업계 표준 없음동일한 과제; 시뮬레이션은 결코 완전할 수 없음양사 모두 시뮬레이션+실제 세계+공식 안전 논증 사용

5절 — 시뮬레이션 벤치마크 스코어카드

차원테슬라Waymo우위
시뮬레이션 규모매우 높음 — 약 600만 대의 섀도우 모드 차량(추정치) x 일일 마일수; Dojo가 출력 처리매우 높음 — 하루 150억 시뮬레이션 마일(Waymo 공시)다른 접근법; Waymo의 시뮬레이션 볼륨이 더 높음; 테슬라의 실제 세계 섀도우 볼륨이 더 높음
섀도우 모드/실제 세계 신호결정적 — 600만 대 차대(추정치) x 지속적 섀도우 모드 = 비길 데 없는 실제 세계 훈련 신호실제 차대가 작음; 시뮬레이션으로 보완테슬라
적대적 테스트 프로그램공개 문서 적음결정적 — CarCraft 적대적 시나리오가 핵심 방법론(Waymo 공시)Waymo
폐루프 충실도SIL과 실제 세계 검증 모두 사용폐루프 SIL CarCraft가 업계 벤치마크Waymo
센서 시뮬레이션 충실도카메라 시뮬레이션 개선 중; 신경 렌더링 연구 활발라이다 시뮬레이션이 카메라보다 더 어려움; Waymo가 많이 투자대략 동등; 다른 센서
CI/CD 통합테슬라는 FSD를 OTA로 배포; 시뮬레이션으로 회귀 테스트Waymo는 배포 게이팅에 시뮬레이션 사용양사 모두 성숙함

종합 평가

테슬라의 섀도우 모드는 약 600만 대(추정치) 규모로 AV 업계에서 가장 강력한 실제 세계 훈련 신호다. 이 규모의 차대에서 얻은 실제 주행 데이터량에 필적하는 AV 프로그램은 존재하지 않는다. Waymo의 CarCraft는 하루 150억 시뮬레이션 마일(Waymo 공시) 규모로 상업 AV 개발에서 가장 정교한 시뮬레이션 환경이다.

두 가지 접근법은 경쟁 관계가 아닌 보완 관계다. 테슬라는 실제 세계 데이터량과 섀도우 모드 신호의 풍부함에서 결정적으로 우세하다. Waymo는 시뮬레이션의 엄격성, 적대적 테스트 커버리지, 폐루프 충실도에서 결정적으로 우세하다. 두 가지 모두 완전한 AV 안전 논증에 불가결하며 — 이것이 바로 두 회사 모두 두 가지 접근법을 함께 사용하는 이유다.


참고: “(추정치)“로 표시된 모든 수치는 2026년 중반 기준 공개 공시, 업계 연구, 애널리스트 추정치 및 보고된 데이터에서 도출되었다. Waymo의 하루 150억 시뮬레이션 마일 수치는 Waymo의 공개 안전 공시에 기반한다. 본 기사는 투자 조언을 구성하지 않는다.


출처

태그

커피