2026-06-18 — views
피지컬 AI 컴퓨팅 인프라 — Tesla Dojo vs Google TPU vs NVIDIA H100: 자율주행 훈련 군비 경쟁의 전말
Tesla는 Dojo 커스텀 실리콘으로 FLOP당 1달러를 목표로 하며, Waymo는 Google TPU 규모를 계승해 NVIDIA 의존 경쟁사보다 훈련 반복 속도에서 크게 앞선다.
피지컬 AI 벤치마크 시리즈 제130편 — 피지컬 AI 컴퓨팅 인프라: Tesla Dojo vs Google TPU vs NVIDIA H100/H200, FSD·Waymo 신경망·Optimus 정책 학습을 뒷받침하는 AI 훈련 군비 경쟁
FSD, Waymo의 인식 시스템, Optimus 정책 학습을 구동하는 AI 모델은 모두 대규모 컴퓨팅 클러스터에서 훈련됩니다. 컴퓨팅 인프라는 각 기업의 반복 속도——새 모델 훈련, 절제 실험 실행, 플리트 개선 사항 배포의 속도——를 결정합니다. Tesla는 커스텀 실리콘(Dojo D1 칩과 ExaPOD 클러스터)에 베팅했습니다. Waymo는 Google의 세계 수준 TPU 인프라를 계승했습니다. 나머지 모든 AV 및 로보틱스 기업은 NVIDIA H100/H200 클러스터를 임대합니다. 본 기사에서는 컴퓨팅 인프라를 피지컬 AI 벤치마크 차원으로 분석합니다.
“(추정)“으로 표시된 수치는 공개 시장 정보, 기업 공시, 애널리스트 추정에서 도출된 것으로 검증된 1차 데이터가 아닙니다.
섹션 1 — Tesla Dojo: 커스텀 실리콘에 대한 베팅
Tesla의 Dojo 프로그램은 자율주행 산업에서 가장 야심찬 커스텀 실리콘 베팅입니다. Tesla는 클라우드 제공업체로부터 NVIDIA 컴퓨팅을 임대하는 대신 자체 훈련 칩(Dojo D1)을 설계하고, 이를 FSD 훈련, 자동 레이블링, Optimus 정책 학습 전용 ExaPOD 클러스터로 조립했습니다.
| 지표 | Dojo D1 칩 | Dojo ExaPOD (훈련 클러스터) | 현황 (2026년 중반) |
|---|---|---|---|
| 아키텍처 | TSMC 커스텀 7nm; 362 TFLOPS BF16; 10 TB/s 온칩 대역폭 (Tesla 공개) | 훈련 타일당 120개 Dojo D1; ExaPOD 캐비닛당 3,000개 칩 | 커스텀 설계 — GPU 벤더 의존 없음 |
| 목표 컴퓨팅 | ExaPOD 클러스터당 1 ExaFLOP (Tesla 공개 목표) | 복수 ExaPOD = 복수 ExaFLOP | Tesla AI Day 공개 기준 약 1 ExaFLOP 달성 (추정) |
| 훈련 목적 | FSD 신경망 (영상→주행 정책); Occupancy Network; 자동 레이블링 파이프라인 | 전체 FSD 훈련 실행: 600만대 이상 플리트의 원시 영상 → 업데이트된 FSD 모델 생성 | FSD v12/v13/v14가 Dojo에서 훈련됨 (추정) |
| Optimus 활용 | Optimus 정책 학습 (조작, 내비게이션)이 동일한 Dojo 인프라를 공유 (추정) | 휴머노이드 정책은 주행보다 더 다양한 데이터 필요 — 개선당 더 높은 컴퓨팅 비용 (추정) | Optimus 초기 훈련이 Dojo에서 진행 (추정); 확장 중 |
| NVIDIA 대비 비용 | Musk는 임대 NVIDIA H100 클러스터의 약 3-4달러/FLOP 대비 1달러/FLOP 목표를 제시 (추정) | 달성 시: 클라우드 GPU 대비 훈련 실행당 약 3-4배 비용 우위 | 우위는 Dojo 가동률과 수율에 의존 |
| 리스크 | 커스텀 실리콘 수율 리스크; TSMC 7nm은 성숙했지만 Dojo 아키텍처는 독점; 칩 설계에 버그 있으면 수정 느림 | Tesla 자체 칩 팀에 대한 단일 소스 의존 | 핵심 리스크: NVIDIA H100 클러스터는 지금 대규모로 사용 가능; Dojo 구축에 지연 발생 |
| 전략적 가치 | Dojo가 비용 목표 달성 시: Tesla는 컴퓨팅을 임대하는 경쟁사보다 더 빠르고 저렴하게 FSD 훈련 | 훈련 속도 = 모델 반복 속도 = 디스인게이지먼트율 개선 속도 | Dojo 베팅은 자본 지출을 지속적인 비용 해자로 전환 |
Dojo의 논리는 단순한 비용 방정식에 기반합니다: Tesla가 FLOP당 1달러로 모델을 훈련할 수 있다면, 임대 H100 클러스터의 3-4달러 대비 각 FSD 반복은 경쟁사보다 3-4배 저렴합니다. 연간 수백 번의 훈련 실행에 걸쳐 이 비용 우위는 반복 속도 우위로 복리 축적됩니다——달러당 더 많은 실험을 할 수 있다는 것은 더 나은 모델로의 더 빠른 수렴을 의미합니다.
섹션 2 — Waymo와 Google TPU: 모회사로부터 계승한 인프라 우위
Waymo의 컴퓨팅 우위는 구조적인 것이지 노력으로 얻은 것이 아닙니다: Alphabet 자회사로서 Waymo는 Google의 TPU 인프라 접근권을 계승했습니다——Google 검색, YouTube 추천, Gemini 훈련을 구동하는 동일한 커스텀 실리콘입니다. 동등한 자본 투자 없이는 어떤 AV 스타트업도 이에 필적할 수 없습니다.
| 지표 | Google TPU v4/v5 | Waymo의 접근 | 전략적 함의 |
|---|---|---|---|
| 아키텍처 | Google 커스텀 TPU; v4 = 275 TFLOPS; v5p = 약 460 TFLOPS (추정) | Waymo는 Alphabet 자회사 — Google TPU 플리트 및 Google Cloud 인프라에 완전 접근 | Waymo는 컴퓨팅에 자본 지출 불필요; Alphabet이 인프라 비용 부담 |
| 클러스터 규모 | Google은 세계 최대 규모의 TPU 클러스터 중 하나를 운영 (정확한 용량 미공개) | Waymo는 온디맨드로 Google 규모 컴퓨팅에 접근 가능 | Waymo의 컴퓨팅 상한선은 Google의 전체 인프라 |
| 시뮬레이션 인프라 | Google의 NeRF 기반 장면 재구성 (대규모 시뮬레이션)이 TPU + GPU 클러스터에서 실행 | Waymo의 시뮬레이션 파이프라인이 실제 마일을 합성 훈련 데이터로 배가 | 실제 1마일 → 1,000개 이상 시뮬레이션 변형 → TPU가 모두 훈련 |
| Waymo에 대한 비용 | Alphabet 내부 비용 배분 (미공개); Waymo는 내부 이전 가격으로 지불 | 실질적으로 Alphabet의 보조금 | 경쟁 해자: 동등한 자본 없이는 Google의 컴퓨팅을 복제할 수 있는 AV 스타트업 없음 |
| 리스크 | Alphabet 의존: Waymo가 분사 또는 매각되면 TPU 접근이 변경될 수 있음 | Alphabet은 Waymo 투자 계속 의지 표명 | 자회사 상태 유지 시 낮은 리스크; 독립 IPO 시 중간 리스크 |
| 훈련 중점 | Waymo의 MultiPath++ (궤적 예측), OccupancyFlow (환경 모델), 인식 스택 | Waymo의 모든 주요 신경망이 Google TPU 인프라에서 훈련 | Google Brain / DeepMind 협력 가능성 (추정) |
시뮬레이션 승수는 Waymo에서 가장 과소평가된 컴퓨팅 증폭기입니다. 실제 주행 1마일의 데이터는 수천 개의 시뮬레이션 변형으로 변환될 수 있습니다——다양한 조명 조건, 다양한 보행자 행동, 다양한 교통 패턴, 센서 노이즈 변동. 각 변형은 새로운 훈련 예입니다. Google 규모 TPU 인프라로 생성 및 처리될 때 Waymo의 실효 훈련 데이터 양은 플리트의 실제 마일수를 크게 초과합니다.
섹션 3 — NVIDIA: 다른 모든 AV 기업이 의존하는 기존 강자
Tesla도 Waymo도 아닌 AV 또는 로보틱스 기업에게 NVIDIA는 대규모 컴퓨팅의 유일한 실행 가능한 경로입니다. 이는 훈련 반복 속도를 기업이 감당할 수 있는 또는 협상으로 확보할 수 있는 H100/H200 용량으로 제한하는 구조적 의존성을 만듭니다.
| 지표 | NVIDIA H100 | NVIDIA H200 | NVIDIA DRIVE Orin (차량 내) |
|---|---|---|---|
| 아키텍처 | Hopper; 3.9 PetaFLOPS BF16 (공개) | Hopper + HBM3e; 약 3.9 PF BF16 + 더 높은 메모리 대역폭 | 칩당 254 TOPS; 자동차 안전 등급 |
| 클라우드 가용성 | AWS, Azure, GCP, CoreWeave, Lambda Labs — 모든 AV 기업 접근 가능 | H200은 H100과 동일한 클라우드 제공업체를 통해 이용 가능 | Tier 1 공급업체 및 AV 기업에 판매 |
| 비용 | 클라우드 시간당 약 2-4달러 (추정, 제공업체 및 스팟 가격에 따라 변동) | 클라우드 시간당 약 3-5달러 (추정) | 칩당 약 750달러 이상 (추정); Zoox, Aurora 등 AV 차량에 탑재 |
| H100/H200으로 훈련하는 AV 기업 | Aurora, Zoox, Mobileye, Wayve, Waymo/Tesla 외 대부분의 AV 기업이 H100/H200 시간 임대 | — | — |
| NVIDIA DRIVE 플랫폼 | — | — | 별도 제품: DRIVE Orin (254 TOPS) + DRIVE Thor (2,000 TOPS, 발표됨); 차량 내 AV 인식/계획 AI |
| 전략적 역할 | Dojo나 Google TPU 없이는 AV 훈련의 기본 인프라 | H200 = 현재 최전선; H100 = 접근 가능하고 널리 이용 가능 | NVIDIA 차량 내 컴퓨팅이 Tesla/Waymo 외 AV 시장 지배 |
| AV 기업의 리스크 | 집중 리스크: NVIDIA 가격 결정력; 2023년 H100 공급 제약이 훈련 지연 유발 | — | Tesla (HW4)와 Waymo (커스텀 TPU)를 제외한 모든 경쟁사의 차량 내 컴퓨팅이 NVIDIA 의존 |
NVIDIA 의존성은 시간이 지남에 따라 복리로 악화되는 전략적 비대칭을 만듭니다. Aurora, Zoox, Mobileye, Wayve는 모두 임대한 H100 클러스터에서 훈련 워크로드를 실행하고 있습니다. NVIDIA가 H200이나 차세대 Blackwell 칩을 발표하면 이들 기업 모두 동등하게 혜택을 받지만, 하드웨어 접근에서 누구도 우위를 얻지 못합니다. 훈련 컴퓨팅의 바닥선은 모두에게 동시에 오르지만, 상한선은 그대로 유지됩니다: 클라우드 시장이 시장 가격으로 팔려는 용량.
섹션 4 — 성장 배수기로서의 컴퓨팅: 훈련 반복 속도
컴퓨팅 인프라 차이의 실질적 결과는 훈련 반복 속도입니다——각 기업이 월별로 실행할 수 있는 모델 개선 사이클 수. 더 많은 반복은 더 빠른 디스인게이지먼트율 개선, 더 빠른 에지 케이스 커버리지, 새로운 주행 환경에 대한 더 빠른 적응을 의미합니다.
| 기업 | 훈련 클러스터 | 추정 월간 훈련 실행 수 | 모델 반복 속도 | 성장 함의 |
|---|---|---|---|---|
| Tesla | Dojo ExaPOD (1+ ExaFLOP 추정) | 높음 — FSD + Optimus 전용 클러스터 | 사양대로라면 Dojo가 가장 빠른 반복 (추정) | 디스인게이지먼트율 개선 속도는 훈련 반복 속도에 비례 |
| Waymo | Google TPU (Alphabet 규모) | 매우 높음 — Google 인프라; 상업 고객과 경쟁 없음 | 매우 빠름; Google의 컴퓨팅 규모는 타의 추종 불허 | Waymo의 시뮬레이션-훈련 파이프라인이 실효 컴퓨팅 배가 |
| Aurora | 임대 NVIDIA H100/H200 | 중간 — 예산 제약; 안전 검증 우선 | 중간 — 자본 의존 | 자금 조달 제약이 훈련 반복 제한 |
| Zoox | Amazon 클라우드 (EC2 + 임대 H100) — Amazon이 Zoox 소유 | 높음 — Amazon 인프라 | 빠름 — Amazon 클라우드 접근은 Waymo의 Google 우위와 유사 | 과소평가된 우위: Zoox의 Amazon 소유권 = 온디맨드 클라우드 컴퓨팅 |
| Mobileye | Intel 컴퓨팅 + 임대 H100 | 중간 | 중간 | EyeQ 칩 팀은 실리콘 전문성 보유; 훈련 컴퓨팅 집중도는 낮음 |
| Figure AI | 임대 H100; NVIDIA 파트너십 | 중간 | 중간 | OpenAI 언어 모델 통합 = 언어 컴포넌트에 대한 고유한 컴퓨팅 접근 |
Zoox는 Tesla와 Waymo 다음으로 가장 과소평가된 컴퓨팅 우위 AV 기업이기 때문에 이 표에서 특별한 주목을 받을 자격이 있습니다. Amazon의 Zoox 소유권은 내부 이전 가격으로 AWS 인프라에 접근할 수 있는 능력을 부여합니다——본질적으로 Waymo의 TPU 접근과 유사한 구조적 우위입니다. 이 우위는 아직 가시적인 상업적 견인력으로 전환되지 않았지만, Zoox의 훈련 반복 상한선이 Aurora와 동일한 예산 제약에 제한되지 않음을 의미합니다.
섹션 5 — 컴퓨팅 인프라 벤치마크 스코어카드
| 차원 | Tesla (Dojo) | Waymo (Google TPU) | NVIDIA 의존 기업 | 우위 |
|---|---|---|---|---|
| 이용 가능한 원시 컴퓨팅 | 약 1+ ExaFLOP 추정 (성장 중) | Google 규모 (미공개; 사실상 무제한) | 예산 및 H100 가용성에 제한 | Waymo (Alphabet 백스톱) |
| FLOP당 비용 (추정) | 목표 1달러/FLOP (Dojo 달성 시) | 거의 제로 (내부 이전) | 클라우드 2-4달러/FLOP (추정) | Waymo 또는 Tesla (Dojo 수율에 따라) |
| 커스텀 실리콘 우위 | 있음 — Dojo D1; D2 개발 중 | 있음 — Google TPU v4/v5 | 없음 — NVIDIA 의존 | Tesla + Waymo 모두 커스텀 실리콘 해자 |
| 반복 속도 | 높음 (전용 클러스터) | 매우 높음 (Google 규모 + 시뮬레이션 승수) | 중간 (예산 제약) | Waymo 약간 우위 (시뮬레이션 승수 복리 효과) |
| 차량 내 컴퓨팅 | HW4 = 288 TOPS (4x TSMC 커스텀 7nm); NVIDIA 의존 없음 | Waymo 차량 내 커스텀 TPU | NVIDIA DRIVE Orin (약 750달러 이상 추정) | Tesla (수직 통합; 제3자 비용 또는 리드 타임 없음) |
| Dojo vs TPU 평결 | Dojo는 커스텀 실리콘이 지속적인 비용 해자를 만든다는 수십억 달러 규모의 베팅 | Google TPU는 이미 대규모로 검증됨; Waymo가 계승 | — | 둘 다 대규모 임대 H100보다 우월; 오늘날 Waymo의 접근 규모가 더 큼 |
컴퓨팅 인프라 스코어카드는 2계층 피지컬 AI 산업을 드러냅니다. 1계층은 Tesla와 Waymo로 구성——둘 다 훈련과 추론에 커스텀 실리콘을 보유하고, 클라우드 시장 가격에 독립적으로 확장 가능한 전용 클러스터를 보유하며, 차량 내 컴퓨팅도 NVIDIA에 의존하지 않습니다. 2계층은 다른 모든 AV 및 로보틱스 기업으로 구성——훈련과 차량 내 추론 모두에서 구조적으로 NVIDIA 의존이며, 훈련 반복 속도가 인프라 상한선이 아닌 클라우드 예산에 의해 제한됩니다.
장기적 함의는 시간이 지남에 따라 복리로 확대되는 훈련 반복 격차입니다. Tesla가 Dojo로 Aurora보다 3분의 1 비용으로 매월 더 많은 FSD 훈련 실험을 실행할 수 있고, Waymo가 Google 인프라의 용량 상한선 없이 5배의 실험을 실행할 수 있다면, 1계층과 2계층 간의 신경망 품질 격차는 매월 확대됩니다——연구팀의 질과 무관하게. 컴퓨팅 인프라는 피지컬 AI 리더십의 충분조건은 아니지만, 점점 더 필요조건이 되고 있습니다.
참고: “(추정)“으로 표시된 모든 수치는 2026년 중반 기준 공개 시장 정보, 기업 공시, 애널리스트 추정 및 업계 보고서에서 도출된 것입니다. 본 기사는 투자 조언을 구성하지 않습니다.
출처
- Tesla Dojo 슈퍼컴퓨터 — Tesla AI Day ↗
- Google TPU 인프라 — Google Cloud ↗
- NVIDIA H100 사양 — NVIDIA ↗
- NVIDIA DRIVE Orin 차량용 플랫폼 — NVIDIA ↗
- Waymo 연구 및 시뮬레이션 인프라 — Waymo ↗