2026-06-18 — views
AV 데이터 플라이휠 — Tesla 600만대 vs Waymo 완전 무인 주행 품질 우위
Tesla는 양을 수집하고, Waymo는 질을 추구한다. 2028년까지 더 나은 자율주행 시스템을 구축하는 데이터 플라이휠은 어느 쪽인가? AV 투자자 필독 구조적 경쟁력 비교.
피지컬 AI 벤치마크 시리즈 제65회 — 훈련 데이터 해자
자율주행에서 가장 중요한 장기적 구조적 우위는 센서 스택도, 소프트웨어 팀도, 규제 기관과의 관계도 아니다. 그것은 데이터 플라이휠이다. 배포된 차량을 더 나은 훈련 데이터로, 더 나은 훈련 데이터를 더 강력한 모델로, 더 강력한 모델을 더 많은 차량 배포로 전환하는 자기 강화 루프다. 최고의 플라이휠을 구축한 기업이, 단일 공학적 도약이 아닌 수년에 걸친 데이터 우위의 복리 축적을 통해 최고의 자율주행 시스템을 구축한다.
Tesla와 Waymo는 근본적으로 다른 플라이휠 아키텍처를 구축했다. Tesla는 양을 최적화한다: 600만 대 이상의 FSD 차량이 어떤 경쟁사도 복제할 수 없는 규모로 지도 학습 주행 데이터를 수집한다. Waymo는 품질을 최적화한다: 완전히 무인으로 운영되는 상업 서비스로, 모든 탑승이 인간의 백업 없이 AV 시스템만으로 처리되는 고위험 실세계 시나리오다. 이 아키텍처 경쟁의 결과가 2028년 이후 어느 기업의 AI 스택이 실질적으로 더 우수한지를 결정한다.
제1절 — 왜 훈련 데이터가 AI 해자인가
엔드투엔드 신경망 주행(Tesla FSD v12+와 Waymo의 현행 신경망 스택이 채택한 아키텍처)에서 모델은 수작업으로 코딩된 규칙을 따르지 않는다. 수백만 개의 주행 시나리오를 관찰하여 올바른 행동이 무엇인지 추론함으로써 학습한다. 관찰된 경험의 품질과 양이 모델 성능의 거의 모든 것을 결정한다.
플라이휠은 다음과 같이 작동한다:
더 많은 차량 배포 → 더 많은 주행 거리 → 더 많은 엣지 케이스 포착 → 더 나은 훈련 데이터 → 더 강력한 모델 → 더 많은 차량 판매 또는 배포 → 반복
핵심 통찰: 데이터 양과 데이터 품질은 동일하지 않다. 인간 운전자가 비정상적인 상황을 전혀 마주치지 않는 10억 마일의 지도 학습 FSD 데이터는, AV 시스템이 인간의 백업 없이 완전히 새로운 상황을 독자적으로 처리해야 하는 완전 무인 운행 100만 마일보다 마일당 가치가 현저히 낮다. 마일당 정보 함유량이 근본적으로 다르다.
자율주행에서 가장 어려운 부분은 친숙한 도로에서의 예측 가능한 행동이라는 평범한 99%의 마일이 아니다. 그것은 1%의 롱테일 엣지 케이스다: 특이한 도로 구성, 예상치 못한 보행자 행동, 도로 위 장애물, 희미한 차선 표시, 공사 구간, 그리고 사거리 정지 시 모든 운전자가 약간씩 다르게 행동할 때 요구되는 복잡한 다자간 협상. 이것이 장애를 야기하는 시나리오이며, 이를 포착하는 훈련 데이터는 통상적인 고속도로 주행 데이터보다 사례당 훨씬 높은 가치를 지닌다.
이것이 핵심적인 긴장을 만들어낸다: Tesla는 쉬운 마일이 훨씬 많다. Waymo는 인간의 지원 없이 처리된 어려운 마일이 훨씬 많다. 양과 품질 중 어느 차원이 안전한 상업용 자율주행 시스템을 구축하는 데 더 중요한가?
제2절 — Tesla의 데이터 플라이휠: 규모화된 양의 우위
Tesla의 데이터 플라이휠은 자동차 AI 역사상 가장 야심 찬 데이터 수집 작업이며, 그 규모는 업계에서 진정으로 비교 대상이 없다.
| 차원 | 세부 사항 |
|---|---|
| 차량 규모 | 2026년 중반 기준 600만 대 이상의 FSD 차량 |
| 일일 주행 거리 | 차량 전체에서 하루 수천만 마일의 FSD 주행 추정 (추정값) |
| 데이터 유형 | 지도 학습: 인간 운전자 항상 탑승; 시스템이 인간 행동 관찰; 인간 개입(테이크오버) 포착 |
| 엣지 케이스 포착 | 미국 40개 이상 주, 캐나다, 제한적 EU 출시를 아우름: 엄청난 지리적 및 시나리오 다양성; 차량 규모에서 희귀 이벤트가 빈번히 발생 |
| 훈련 신호 | 인간 테이크오버 = 라벨링된 훈련 데이터; “인간이 개입” = 시스템이 잘못된 행동; 차량은 연간 수십억 개의 라벨링된 수정 이벤트 생성 (추정값) |
| 데이터 파이프라인 | 섀도우 모드: FSD를 활성화하지 않은 운전자도 FSD가 백그라운드에서 실행; 인간의 행동과 FSD가 취했을 행동의 차이를 포착; 방대한 비라벨 비교 데이터셋 생성 |
| Dojo | Tesla 맞춤형 AI 훈련 클러스터; 동영상 기반 주행 훈련에 필요한 특정 텐서 연산에 최적화된 D1 칩 |
| 핵심 우위 | 소비자 자동차 사업 없이 600만 대 규모를 복제할 수 있는 경쟁사는 없음; 데이터 해자는 판매 차량마다 깊어짐 |
| 핵심 한계 | 지도 학습 데이터에 선택 편향이 있음: 인간은 주로 정상 시나리오에서 운전; 인간도 실수하는 진정으로 새로운 상황은 제대로 포착되지 않음; 휴먼인더루프로 인한 품질 상한 |
섀도우 모드 파이프라인은 Tesla의 가장 과소평가된 경쟁 우위다. FSD를 한 번도 활성화한 적 없는 Tesla 오너도 훈련 데이터셋에 기여한다: 차량이 인간 운전자의 행동을 관찰하고 FSD 시스템이 취했을 행동과 비교한다. 이를 통해 추가적인 수집 비용 없이 역사상 가장 큰 지속적으로 업데이트되는 주행 행동 비교 데이터셋이 생성된다.
제3절 — Waymo의 데이터 플라이휠: 양보다 품질
Waymo의 데이터 플라이휠은 수 자릿수 더 작지만, Tesla가 규모로 수집할 수 없는 특정 훈련 신호—인간의 모방 없이 시스템이 실제로 하는 것—를 포착하도록 설계되었다.
| 차원 | 세부 사항 |
|---|---|
| 차량 규모 | 2026년 중반 기준 약 1,500대의 전용 차량 |
| 일일 주행 거리 | 약 15만 회/주 × 평균 약 4마일/회 = 약 60만 상업 마일/주 = 약 8.6만 마일/일 (추정값) |
| 데이터 유형 | 완전 무인: 루프 내 인간 없음; 인간 백업 없이 AV 시스템이 새로운 상황을 실제로 처리하는 방식 포착 |
| 엣지 케이스 포착 | 지리적 다양성 제한 (4개 도시: 피닉스, 샌프란시스코, 오스틴, LA); 그러나 모든 상업 탑승이 실제 승객을 포함한 실세계 무인 시나리오—지도 학습보다 높은 중요성 |
| 훈련 신호 | 불편함 이벤트, 승객 행동, 시나리오 난이도, 원격 지원 요청—단순한 “인간이 개입”보다 풍부한 행동 신호 |
| 시뮬레이션 | Waymo 시뮬레이션 시티가 대규모 합성 시나리오 생성; 실세계 배포 전 수십억 시뮬레이션 마일 실행 가능 |
| 멀티센서 데이터 | LiDAR + 카메라 + 레이더 = 카메라만보다 마일당 풍부한 공간 데이터; 3D 포인트 클라우드가 훈련의 그라운드 트루스 기하학 제공 |
| 핵심 우위 | 무인 마일이 가장 어려운 문제에 최고 품질 신호 제공: 모방할 인간 없을 때 시스템은 어떻게 하나? |
| 핵심 한계 | 하루 약 8.6만 상업 마일 vs Tesla 추정 수천만 마일—양적 격차 100배에서 1,000배 (추정값); 지리적 다양성 4개 도시 제한 |
Waymo의 무인 신호는 Tesla가 오늘날 대규모로 수집할 수 있는 것과 질적으로 다르다. Waymo 차량이 경험해보지 못한 시나리오에 직면하면 스스로 처리하거나 원격 지원을 요청해야 한다. 두 결과 모두 높은 신호의 훈련 이벤트다. Waymo의 시뮬레이션 능력은 양적 격차를 부분적으로 보완한다—실세계 주행에서 거의 발생하지 않는 합성 희귀 이벤트를 생성할 수 있다.
제4절 — 품질 vs 양의 논쟁
Tesla와 Waymo의 아키텍처 철학 간의 핵심 불일치는 머신러닝에서 진정으로 미해결된 문제에 대응한다: 더 많은 저품질 데이터가 더 적은 고품질 데이터보다 우수한가?
| 논점 | Tesla 양에 유리한 이유 | Waymo 품질에 유리한 이유 |
|---|---|---|
| 희귀 이벤트 | 600만 대에서 100만 분의 1의 희귀 이벤트가 매일 발생; 1,500대에서는 훈련 데이터에 나타나지 않을 수 있음 | 시뮬레이션이 대규모 합성 희귀 이벤트 생성 가능; 무인 주행의 실세계 희귀 이벤트가 최고 품질 신호 제공 |
| 엣지 케이스 라벨 | 인간 테이크오버가 자연스러운 라벨 제공 (테이크오버 = 시스템 오류) | 무인 시나리오 = 시스템이 처리해야 함; 결과 관찰 가능 (탑승 완료? 지원 요청?) |
| 일반화 | 더 많은 지리적 다양성 → 다른 도로 유형, 표지판, 날씨에 대한 일반화 향상 | 도시 제한적이나 시뮬레이션이 보완; 멀티센서 데이터가 샘플당 풍부한 정보 제공 |
| 롱테일 | 희귀 주행 시나리오의 롱테일이 주요 안전 과제; Tesla의 규모가 자연스럽게 더 많은 롱테일 포착 | Waymo는 가장 중요한 롱테일 시나리오가 인간도 실패하는 것이라고 주장—무인 데이터만이 이를 밝힐 수 있음 |
| 전이 학습 | 소비자 차량 데이터는 지도 학습 주행 개선으로의 전이가 양호; 완전 자율화로의 전이는 불명확 | 무인 데이터가 목표 행동 분포에 직접 일치; 지도 학습에서 자율 주행으로의 분포 이동 없음 |
| 결론 (추정값) | 양은 지도 학습 주행 개선 및 ADAS에서 우위; 품질은 무인 안전 인증에서 우위 | 둘 다 필요; 이상적인 훈련셋은 Tesla 규모의 양과 Waymo 품질의 무인 신호를 결합 |
전이 학습 문제는 특히 주목할 필요가 있다. Tesla의 지도 학습 훈련 데이터는 목표 행동과 다른 분포 하에서 수집된다: 시스템은 인간 백업이 있는 상황에서 훈련되지만, 목표는 인간 없이 안전하게 운전하는 것이다. 지도 학습 데이터 수집에서 자율 배포로의 이 분포 차이는, 양 증가만으로는 해결할 수 없는 근본적 과제다.
제5절 — 플라이휠이 경쟁을 어떻게 형성하는가
데이터 플라이휠 경쟁은 여러 시나리오에서 전개되며, 각각이 2028년 경쟁 결과에 다른 의미를 가진다.
| 시나리오 | 결과 |
|---|---|
| Tesla 무인 주행 먼저 규모화 | Tesla 플라이휠이 지도 학습에서 무인 데이터 수집으로 전환; 품질이 양을 따라잡음; 복합적 우위 가속; 모든 경쟁사와의 격차 확대 |
| Waymo 차량 10만 대 도달 | 품질의 규모화 가능; 실세계 무인 주행 데이터와 시뮬레이션의 결합으로 커버리지와 신호 품질 모두 제공하는 훈련 데이터셋 생성 |
| 중국 AV 플레이어 | 데이터 현지화 법으로 독립된 해자 형성; BYD와 NIO의 국내 규모가 중국 내에서 Tesla의 양 플라이휠 복제 가능 |
| 신규 진입자 파괴 | 모든 신규 진입자가 콜드스타트 문제에 직면: 훈련 데이터 없음 → 유능한 시스템 없음 → 배포 없음 → 훈련 데이터 없음; 대규모 시뮬레이션 투자 또는 기존 플레이어 인수 필요 |
| 데이터 공유 | 어떤 주요 AV 기업도 훈련 데이터를 공유하지 않음; 각자 독점적 해자 구축; 승자는 데이터 우위를 가장 먼저 상업적 규모로 전환한 기업 |
콜드스타트 문제는 투자자에게 AV 경쟁에서 가장 중요한 구조적 사실이다. 데이터 플라이휠은 시간이 지남에 따라 강화되는(약화가 아닌) 복합적 진입 장벽을 만들어낸다. 오늘날 경쟁력 있는 AV 시스템을 구축하려는 신규 진입자는 빠르게 해소할 수 없는 훈련 데이터 적자에 직면한다: 실세계 주행 거리 축적에는 수년이 걸리고, 시뮬레이션 데이터만으로는 상업적 무인 주행 인증에 불충분하다.
제6절 — 투자자 신호: 2028년에 어느 플라이휠의 가치가 더 높은가?
Tesla 양 플라이휠의 강세 논거는 세 가지 가정에 의존한다: 지도 학습에서 무인으로의 전이 학습이 충분히 작동하는 것; Tesla Robotaxi가 2026-2027년에 상업적 규모에 도달하여 플라이휠이 지도 학습에서 무인 수집으로 전환되는 것; 그리고 카메라 전용 인식이 규모를 통해 최종적으로 LiDAR 장착 인식을 따라잡거나 능가하는 것.
Waymo 품질 플라이휠의 강세 논거는 세 가지 다른 가정에 의존한다: 무인 데이터가 최종 안전 인증에 필수적인 것; Waymo 차량이 Google 파트너십과 Uber 프레이트 배포를 통해 5만~10만 대로 성장하는 것; 그리고 LiDAR 멀티센서 데이터가 지속적인 마일당 정보 우위를 제공하는 것.
종합 관점: 두 플라이휠 모두 필요하며, 어느 하나만으로는 충분하지 않다. 상업적 무인 주행 시스템을 위한 이상적인 훈련 데이터셋은 Tesla 규모의 양(시나리오 폭, 지리적 다양성, 차량 규모에서의 희귀 이벤트 밀도)과 Waymo 품질의 무인 신호(온폴리시 데이터, 고위험 시나리오, 분포 이동 없음)를 결합한다.
투자자를 위한 주요 관찰 신호는: Tesla Robotaxi 무인 배포 속도(플라이휠 전환), Waymo 차량 확장 발표(품질 수집 규모화), AV 기업 간 데이터 공유 파트너십(해자 재분배), 그리고 규제 안전 인증 기준(양 또는 품질 플라이휠 중 어느 것이 상업적 승인에 필요한 증거를 제공하는지 최종적으로 결정할 수 있음).
데이터 플라이휠은 AV 선두 기업과 추종 기업 간의 격차가 시간이 지남에 따라 확대된다는 것을 의미한다—축소가 아닌. 데이터 우위를 상업적 규모로 전환하는 경쟁이 향후 3년간 피지컬 AI에서 가장 결정적인 경쟁 이벤트다.
제7절 — 이 시리즈에 대해
이것은 피지컬 AI 벤치마크 시리즈의 제65회다. 본고는 데이터 플라이휠 차원을 추가한다: Tesla 양 플라이휠(600만 대, 규모에서의 지도 학습 데이터, 섀도우 모드 파이프라인, Dojo)과 Waymo 품질 플라이휠(완전 무인 상업 탑승, 멀티센서 그라운드 트루스, 시뮬레이션 시티)의 아키텍처 비교, 머신러닝 용어로 설명된 양 vs 품질 논쟁, 그리고 어느 플라이휠이 우세한지를 드러내는 투자자 신호.
참고: 본고의 모든 차량 규모, 일일 주행 거리, 상업 탑승 추정치는 공개된 기업 공시, 보도 자료, 업계 분석에 기반한다. 정확한 수치를 구할 수 없는 경우 추정값은 “(추정값)“으로 표시되며 방향성 지표로만 취급해야 한다. 본고는 투자 조언을 구성하지 않는다.
출처
- Tesla FSD 차량 데이터 및 섀도우 모드 — Tesla AI Day 발표 ↗
- Waymo Simulation City — Waymo 기술 블로그 ↗
- Tesla Dojo 슈퍼컴퓨터 — Tesla 투자자 발표 ↗
- 자율주행 데이터 품질 vs 양 — MIT CSAIL 연구 ↗