2026-06-18 — views
Physical AI 데이터 파이프라인 — Tesla 600만 대 수집 플라이휠 vs Waymo 하루 150억 시뮬레이션 마일: 훈련 인프라 경쟁
Tesla는 600만 대에서 매일 수백만 FSD 마일을 수집하고, Waymo는 매일 150억 시뮬레이션 마일을 실행한다. 수량 vs 품질이 Physical AI 데이터 파이프라인 경쟁을 정의한다.
Physical AI 벤치마크 시리즈 제155편 — Physical AI 데이터 파이프라인: Tesla와 Waymo가 대규모로 훈련 데이터를 수집, 레이블링, 저장, 처리하는 방법
데이터 파이프라인은 자율주행 기업이 AI 모델을 개선하는 속도를 결정하는 보이지 않는 인프라입니다. 주행된 모든 마일, 기록된 모든 센서 프레임, 적용된 모든 레이블, 완료된 모든 훈련 실행이 후발 주자가 따라잡기 어려운 복리 우위를 쌓아갑니다. Tesla의 자동 레이블링 파이프라인은 약 600만 대의 FSD 지원 차량에서 데이터를 처리하고(추정치), Waymo의 인간 어노테이션 팀은 규모는 작지만 완전 무인 차량에서 수십억 개의 센서 프레임을 레이블링합니다. 이 기사는 Physical AI 벤치마크 시리즈의 제155편입니다. 수집, 어노테이션, 저장, 컴퓨팅, 피드백 루프를 포함한 전체 데이터 파이프라인을 벤치마크하고, 데이터 속도가 Physical AI의 경쟁 우위에 무엇을 의미하는지 분석합니다.
“(추정치)“로 표시된 모든 수치는 공개 공시, 업계 연구 및 애널리스트 추정치에서 도출된 것으로 독립적으로 검증된 1차 데이터가 아닙니다.
섹션 1 — 데이터 수집: 원자재는 어디서 오는가
| 차원 | Tesla | Waymo | 시사점 |
|---|---|---|---|
| 차량 규모(데이터 소스) | 전 세계 약 600만 대의 FSD 지원 차량(추정치); 매일 약 100만 대 이상이 FSD 활성화(추정치) | 4개 도시에 약 2,500대의 전용 AV 차량(추정치) | Tesla: 2,400배 많은 차량; 원시 데이터 양에서 압도적 우위 |
| 일일 수집 마일(추정치) | 전체 차량에서 매일 수천만 FSD 주행 마일(추정치) | 매일 약 5만~10만 무인 주행 마일(추정치) | Tesla: 일일 마일 약 500~1,000배 더 많음 |
| 센서 데이터 유형 | 9개 카메라(다중 해상도); 4D 레이더; LiDAR 없음 | 카메라 + LiDAR + 레이더(세 가지 모달리티 모두) | Waymo는 차량당 더 풍부한 센서 데이터 수집; Tesla는 훨씬 더 많은 카메라 데이터 수집 |
| 마일당 데이터 밀도 | 약 9개 카메라 스트림 × 약 36프레임/초 = 차량당 약 324프레임/초 | 카메라 + LiDAR 포인트 클라우드 + 레이더 = 카메라 전용 대비 약 10배 더 많은 바이트/마일 | Waymo 데이터는 마일당 더 풍부; Tesla 데이터는 마일 수가 더 많음 |
| 엣지 케이스 밀도(추정치) | 600만 대 규모에서 Tesla는 매일 모든 희귀 시나리오를 여러 번 경험; 섀도 모드가 편차를 플래그 | Waymo의 무인 차량은 희귀 시나리오를 덜 자주 만나지만 레이블링 충실도가 더 높음 | Tesla는 엣지 케이스 수량에서 우세; Waymo는 엣지 케이스 레이블 품질에서 우세 |
| 지리적 다양성 | 미국, 캐나다, EU, 중국, 호주 — 글로벌 카메라 데이터 | 4개 미국 도시(SF, 피닉스, LA, 오스틴) — 좁지만 깊은 | Tesla: 글로벌 시나리오 다양성; Waymo: 4개 시장의 심층 도시 시나리오 |
| 데이터 선택(업로드 내용) | 모든 마일이 업로드되지는 않음; Tesla의 차량 탑재 컴퓨터가 FSD 동작이 운전자와 다르거나 불확실성에 직면한 클립을 선택 | 모든 무인 주행 데이터가 가치 있음; Waymo는 더 적은 양의 더 높은 비율을 업로드 | Tesla의 표적 업로드는 대역폭 비용 절감; 차량 탑재 모델이 불확실하다고 플래그하지 않은 시나리오를 놓칠 위험 |
규모 vs 풍부함의 트레이드오프
Tesla의 LiDAR 미채택 결정은 단순한 비용 결정이 아니라 데이터 전략 결정입니다. 카메라 데이터는 LiDAR 포인트 클라우드보다 수집, 저장, 어노테이션이 더 저렴합니다. 600만 대 차량이 매일 수천만 마일의 데이터를 생성하는 규모에서(추정치), 카메라 전용 데이터를 비용 효율적으로 처리할 수 있는 것이 Tesla의 데이터 플라이휠이 작동하기 위한 전제 조건입니다.
섹션 2 — 데이터 어노테이션: 레이블링 파이프라인
| 단계 | Tesla 접근 방식 | Waymo 접근 방식 | 비용/속도 트레이드오프 |
|---|---|---|---|
| 자동 레이블링(신경망 레이블) | Tesla 파이프라인의 핵심: 신경망이 모든 비디오 프레임에서 객체(보행자, 차량, 자전거 타는 사람, 표지판)를 자동 레이블링; 인간은 엣지 케이스와 불일치만 검토 | Waymo도 자동 레이블링을 사용하지만 LiDAR 포인트 클라우드 레이블링에 더 많은 인간 어노테이터 의존(카메라보다 자동 레이블링이 어려움) | Tesla: 더 자동화; Waymo: 더 많은 인간 참여 |
| 4D 레이블링 | Tesla의 4D(3D 공간 + 시간) 레이블링은 폐색을 포함하여 프레임 간 객체를 추적; Tesla AI Day 2022에서 핵심 혁신으로 공개 | Waymo는 LiDAR 포인트 클라우드에 3D 경계 상자 + 카메라 사용; 시간적 추적도 사용 | Tesla의 4D 접근 방식은 비디오에서 객체 궤적을 더 자연스럽게 캡처 |
| 인간 어노테이션 인력(추정치) | Tesla는 대규모 어노테이션 팀 고용(추정 수백~수천 명); 자동 레이블링이 프레임당 인간 요구 사항 감소 | Waymo 인간 어노테이션 팀; 정확한 규모 미공개; 일부 어노테이션 작업에 Scale AI와 제휴 | 두 회사 모두 인간 어노테이션 사용; Tesla의 자동 레이블 파이프라인이 마일당 인간 요구 사항 감소에서 더 성숙 |
| 능동 학습 | Tesla는 능동 학습 사용: 모델이 불확실한 프레임 식별; 해당 프레임이 인간 레이블링에 우선 | Waymo도 유사한 능동 학습 접근 사용 | 두 회사 모두 무작위 프레임이 아닌 가장 어려운 케이스의 레이블링 우선 |
| 레이블 품질 관리 | 신경망 자동 레이블과 인간 레이블 간 불일치가 검토 유발; 일관성 지표 추적 | Waymo는 레이블 품질을 안전 필수 요건으로 강조; 어려운 프레임에는 여러 어노테이터 | 두 회사 모두 레이블 품질에 막대한 투자; 레이블 오류는 모델 오류로 전파 |
| 마일당 레이블링 비용(추정치) | Tesla 목표: 자동 레이블링을 통해 마일당 한계 비용을 거의 0으로 감소 | Waymo: LiDAR 어노테이션이 카메라보다 비쌈; 더 높은 마일당 어노테이션 비용 | Tesla의 카메라 전용 아키텍처가 대규모에서 더 저렴한 어노테이션 가능 |
| 폐쇄 루프 데이터 파이프라인 | Tesla가 배포한 FSD가 데이터 생성, 자동 레이블링, 새 모델 훈련, OTA를 통한 배포, 더 나은 데이터 생성, 반복 | Waymo: 무인 운영이 데이터 생성, 어노테이션, 훈련, 시뮬레이션에서 검증, 배포 | Tesla의 OTA 속도가 더 빠른 폐쇄 루프 반복 가능; Waymo의 시뮬레이션 게이트가 단계 추가 |
섹션 3 — 데이터 저장 및 컴퓨팅 인프라
| 구성 요소 | Tesla | Waymo | 비고 |
|---|---|---|---|
| 훈련 컴퓨팅(주요) | Dojo 클러스터(Tesla 자체 제작, ExaPOD 약 1 ExaFLOP 추정치) + NVIDIA H100/H200 GPU(보완) | Google TPU v5(Alphabet 통해); Google Cloud 인프라 | Waymo는 Google의 세계 수준 TPU 인프라를 즉시 활용; Tesla는 장기 비용 우위를 위해 Dojo 구축 중 |
| 데이터 저장(추정치) | 페타바이트 규모의 비디오; Tesla는 정확한 저장 용량 미공개; 클라우드 + 온프레미스 혼합(추정치) | 페타바이트 규모의 멀티모달 센서 데이터; Google Cloud가 사실상 무제한 저장 제공 | 두 회사 모두 엔터프라이즈급 저장소 보유; Waymo의 Google Cloud 접근이 더 유연 |
| 데이터 전송 대역폭 | 차량에서 클라우드로: LTE/5G를 통한 표적 클립 업로드; 지속적 스트리밍 아님 | 차량에서 클라우드로: 플래그된 시나리오의 선택적 업로드 | 두 회사 모두 선택적 업로드 실시; 어느 쪽도 모든 센서 데이터를 지속적으로 스트리밍하지 않음 |
| 훈련 실행 빈도 | FSD 업데이트는 대략 월 1회~주 1회 출시(OTA); 빈번한 훈련 실행을 의미 | Waymo는 업데이트 빈도가 낮음(무인 주행에는 더 많은 검증 필요); 월 1회~분기별(추정치) | Tesla의 더 빠른 OTA 주기가 더 빠른 모델 반복 가능 |
| 모델 크기 및 아키텍처 | FSD는 대규모 트랜스포머 기반 신경망 사용; Tesla는 매개변수 수 미공개 | Waymo는 여러 전문 모델(인식, 예측, 계획) 사용; 단일 모놀리식 모델 아님 | 다른 아키텍처 선택이 다른 철학 반영(엔드투엔드 vs 모듈식) |
| 합성 데이터 증강 | Tesla는 시뮬레이션으로 실제 데이터 증강; Dojo가 합성 + 실제 데이터 처리 | Waymo의 CarCraft 시뮬레이션이 매일 150억 시뮬레이션 마일 생성(Waymo 공개); 증강에 많이 사용 | 두 회사 모두 합성 데이터 많이 사용; Waymo의 시뮬레이션 볼륨이 더 큼 |
섹션 4 — 데이터 플라이휠: 더 많은 데이터가 자기 강화 우위를 만드는 방법
| 단계 | Tesla 플라이휠 | Waymo 플라이휠 | 플라이휠 강도 |
|---|---|---|---|
| 1단계: 수집 | 600만 대가 매일 수백만 마일 생성(추정치); 섀도 모드가 편차 플래그 | 2,500대가 매일 5~10만 무인 주행 마일 생성(추정치) | Tesla: 수집량 500~1,000배 우위 |
| 2단계: 레이블링 | 자동 레이블링이 클립 처리; 어려운 케이스의 인간 검토 | 인간 + 자동 레이블링; LiDAR 레이블이 더 비쌈 | Tesla: 더 낮은 한계 어노테이션 비용 |
| 3단계: 훈련 | Dojo + NVIDIA; 레이블된 데이터로 새 모델 훈련 | Google TPU; 레이블된 + 시뮬레이션 데이터로 새 모델 훈련 | Waymo: 오늘날 컴퓨팅 인프라 우위; Tesla 추격 중 |
| 4단계: 배포 | 600만 대에 OTA 업데이트; 즉각적인 대규모 실세계 테스트 | 2,500대에 배포; 더 느린 검증 주기 | Tesla: 더 빠르고 대규모 배포 |
| 5단계: 반복 | 더 높은 품질의 FSD가 더 나은 섀도 데이터, 더 나은 레이블, 더 나은 모델, 더 빠른 주기 생성 | 더 안전한 무인 주행이 더 나은 사고 데이터, 더 나은 레이블, 더 나은 모델 생성 | 두 플라이휠 모두 회전; Tesla의 것이 규모로 인해 더 빠르게 회전 |
| 플라이휠 병목(Tesla) | 품질 관리: 자동 레이블링 규모에서 레이블 오류가 전파; 체계적 레이블 오류가 체계적 모델 오류 생성 | — | Tesla는 플라이휠 품질 유지를 위해 레이블 품질 관리에 막대한 투자 필요 |
| 플라이휠 병목(Waymo) | 볼륨: 2,500대는 Tesla의 일일 마일의 약 0.04% 생성; 시뮬레이션이 보완하지만 실세계 갭 존재 | — | Waymo는 우수한 시뮬레이션과 레이블 품질로 볼륨 갭 보완 필요 |
| 장기 플라이휠 승자 | 자동 레이블링 품질이 대규모에서 인간 레이블링 수준 달성 시 Tesla 승리(불확실) | 시뮬레이션이 실세계 데이터 갭 완전히 해소 시 Waymo 승리(역시 불확실) | 경쟁 결과는 어느 품질 병목이 먼저 해결되는지에 달림 |
섹션 5 — 데이터 파이프라인 벤치마크 스코어카드
| 차원 | Tesla | Waymo | 엣지 | 2028년 전망 |
|---|---|---|---|---|
| 원시 데이터 볼륨 | 결정적 — 600만 대에서 매일 수백만 마일 | 보통 — 2,500대에서 매일 5~10만 마일 | Tesla | Tesla 차량 증가에 따라 갭 확대 |
| 마일당 데이터 풍부도 | 카메라 전용(더 단순, 어노테이션 비용 낮음) | 카메라 + LiDAR + 레이더(더 풍부하지만 어노테이션 비용 높음) | Waymo(마일당 품질) | 풍부도가 볼륨 갭을 보완할 수 있는지에 달림 |
| 마일당 어노테이션 비용 | 낮음 — 자동 레이블링 성숙; 카메라가 LiDAR보다 저렴 | 높음 — LiDAR 어노테이션 더 비쌈; 더 많은 인간 검토 | Tesla | 자동 레이블링 개선에 따라 Tesla 우위 증가 |
| 훈련 컴퓨팅 | 우위 구축 중(Dojo); 현재 NVIDIA로 보완 | 오늘 우위 — Google TPU 인프라 | Waymo(오늘); Tesla(2027년+) | Tesla Dojo D2 추정 2026~2027년 = 변곡점 |
| 폐쇄 루프 반복 속도 | 빠름 — 주간 OTA; 수백만 테스트 차량 | 느림 — 더 많은 검증; 적은 테스트 차량 | Tesla | Tesla의 반복 속도 우위는 지속적 |
| 시뮬레이션 볼륨 | 증가 중; Dojo가 합성 데이터 처리 | 매일 150억 시뮬레이션 마일(Waymo 공개) | Waymo | Waymo의 시뮬레이션 리드는 중요함 |
전체 평가
Tesla의 데이터 파이프라인은 시간이 지남에 따라 복리로 증가하는 결정적인 원시 볼륨 우위를 가집니다. Waymo의 데이터 파이프라인은 품질 우위를 가집니다 — 더 풍부한 센서 데이터, 더 신중한 어노테이션, AV 산업에서 가장 정교한 시뮬레이션입니다. 이 경쟁은 Tesla의 볼륨 플라이휠과 Waymo의 품질 플라이휠 간의 대결입니다. 결과는 AV 능력의 최전선에서 품질과 수량 중 어느 것이 더 중요한지에 달려 있습니다 — 2026년 중반 현재 이는 진정한 불확실성으로 남아 있습니다.
참고: “(추정치)“로 표시된 모든 수치는 공개 공시, 업계 연구, 애널리스트 추정치 및 2026년 중반 기준 보고 데이터에서 도출된 것입니다. 이 기사는 투자 조언이나 제품 추천을 구성하지 않습니다.
출처
- Tesla 자동 레이블링과 4D 파이프라인 — Tesla AI Day 2022 ↗
- Waymo 150억 시뮬레이션 마일 — Waymo 안전 보고서 ↗
- Tesla Dojo 훈련 인프라 — Tesla ↗
- Scale AI AV 어노테이션 — Scale AI ↗
- Google TPU v5 인프라 — Google ↗