2026-06-18 — views
피지컬 AI 연산 대결 — Waymo Google Cloud TPU vs Tesla Dojo D1: 학습 인프라 벤치마크 2026
Waymo는 Google TPU 포드를 보조금 비용으로 사용하며 매일 150억 마일을 시뮬레이션. Tesla는 Dojo D1을 영상 학습용으로 개발하고 NVIDIA H100 클러스터도 병행 운영.
개요
AI 학습 연산 인프라는 각 회사가 자율주행 모델을 개선하는 핵심 엔진입니다. Waymo는 Alphabet 자회사로서 Gemini 등 Google AI 시스템 학습에 사용되는 것과 동일한 연산 생태계인 Google Cloud TPU를 활용합니다. Tesla는 Dojo 슈퍼컴퓨터를 구축하여 대규모 영상 데이터 학습을 위해 특별 설계된 독자 D1 칩을 채택했습니다. 본 기사는 두 가지 연산 접근법을 벤치마크 비교합니다——각 회사의 리소스 구성, 비용 구조, AI 모델 개선 속도에 미치는 영향. 이 기사는 피지컬 AI 벤치마크 시리즈 제165편입니다.
섹션 1 — Waymo의 연산 스택: Google Cloud + TPU 생태계
Waymo의 학습 인프라는 Alphabet 자회사라는 지위와 분리될 수 없습니다. Google의 TPU 포드——세계 최첨단 AI 학습 인프라——에 대한 접근은 독립적인 AV 스타트업이 복제할 수 없는 구조적 우위입니다.
| 연산 차원 | Waymo 세부사항 | 전략적 의의 |
|---|---|---|
| 주요 학습 인프라 | Waymo는 신경망 학습에 Google Cloud TPU를 사용;Alphabet 자회사로서 Waymo는 Google 내부 TPU 포드——Gemini 등 Google AI 시스템 학습에 사용되는 것과 동일한 인프라——에 접근 가능 | Alphabet 자회사 지위 덕분에 Waymo는 한계 비용으로 세계 최첨단 AI 학습 인프라에 접근할 수 있음;어떤 AV 스타트업도 독립적으로 동등한 연산을 감당할 수 없음 |
| Google TPU v4/v5 세대 | Google의 TPU v4 포드는 포드당 약 1 exaFLOP의 연산을 제공;TPU v5(2023년 발표)는 와트당 성능을 추정 2배 이상 향상(추정);Waymo는 필요에 따라 이러한 리소스에 접근 가능 | TPU v5 성능은 AV 인식 및 계획에 사용되는 Transformer 및 컨볼루션 아키텍처 학습에서 업계 최고의 처리량을 나타냄 |
| Google DeepMind 시너지 | Waymo는 DeepMind의 연구 인재 및 방법론에 잠재적으로 접근 가능(둘 다 Alphabet 자회사);AlphaFold, Gemini, 로봇공학에 관한 DeepMind의 연구는 AV 과제와 겹침 | 자회사 간 지식 이전은 자동적이거나 보장된 것이 아니지만, 조직적 근접성은 중요함;DeepMind의 로봇공학 연구는 Waymo의 예측 및 계획 문제에 직접 관련 |
| 시뮬레이션 연산(CarCraft) | Waymo의 CarCraft 시뮬레이션 시스템은 Google Cloud 전체에서 추정 150억 시뮬레이션 마일/일(추정)을 실행;이 규모에서 희귀하고 위험하며 새로운 시나리오를 시뮬레이션하려면 대규모 병렬 연산이 필요 | 150억 시뮬레이션 마일/일은 실제 주행 마일로는 결코 충분한 양을 확보할 수 없는 극히 드문 엣지 케이스(백만 번에 한 번 시나리오)에 대한 학습을 가능하게 함;Google Cloud의 탄력적 확장이 이를 가능하게 함 |
| 비용 구조 | Waymo는 Google Cloud 연산에 시장가를 지불하지 않음;Alphabet 자회사로서 연산 비용은 사실상 보조됨;Waymo의 학습 예산은 독립적으로 공개되지 않음 | 이 보조금은 막대한 구조적 우위:동등한 Google Cloud 연산에 연간 10억 달러 이상을 지불해야 하는 독립적 AV 스타트업이 직면하는 자본 제약을 Waymo는 갖지 않음 |
| HD 지도 연산 | Waymo의 HD 지도는 Google Maps 기본 데이터에 Waymo 전용 센티미터 수준 라이다 강화를 더해 생성·업데이트됨;원시 라이다 점군을 항행 가능한 HD 지도로 처리하는 데는 상당한 연산이 필요 | Google Maps의 기존 지도 렌더링 및 처리 연산 인프라가 Waymo의 HD 지도 생성에 활용됨——Alphabet 관계로 인한 또 다른 보이지 않는 보조금 |
| 연산 전략 총평 | Waymo의 연산 접근법은 깊이 우선:세계 최고의 AI 학습 인프라(Google TPU)를 좁고 명확히 정의된 문제 영역(자율주행 인식 및 계획)에 사용하고, 엣지 케이스 커버리지를 위해 Google의 시뮬레이션 규모를 활용. 주요 리스크:AI 아키텍처가 다른 연산 패러다임에 유리한 방향으로 변화할 경우, Waymo는 자체 로드맵 대신 Google의 로드맵에 의존하게 됨. |
섹션 2 — Tesla의 연산 스택: Dojo D1 + NVIDIA 클러스터
Tesla의 연산 전략은 Waymo의 정반대입니다:기존 하이퍼스케일러의 인프라를 활용하는 대신, 주요 학습 워크로드인 영상에 최적화된 자체 칩과 슈퍼컴퓨터를 구축했습니다.
| 연산 차원 | Tesla 세부사항 | 전략적 의의 |
|---|---|---|
| Dojo 슈퍼컴퓨터 아키텍처 | Tesla는 영상 학습을 위해 D1 칩(7nm, 362 TFLOPS BF16, 칩당 900 GB/s 메모리 대역폭)을 설계;D1 칩은 학습 노드(25칩/노드 = 9 PFLOPS)로 타일화되고, 노드는 ExaPOD 캐비닛(120노드 = 1.1 EFLOPS/ExaPOD)으로, ExaPOD는 완전한 Dojo 클러스터를 형성 | Dojo의 아키텍처는 Tesla의 특정 학습 워크로드——수백만 대 차량의 대규모 영상 프레임——에 최적화되어 있음. 칩 토폴로지(타일 간 고대역폭 상호연결)가 영상 학습의 데이터 이동 오버헤드를 최소화 |
| Tesla가 자체 칩을 구축한 이유 | Tesla의 주요 학습 워크로드는 영상:600만 대 차량의 8카메라 영상 세그먼트 수십억 개;기존 GPU 및 TPU 아키텍처는 이 특정 워크로드 패턴에 최적 설계되지 않았음;커스텀 실리콘으로 Tesla는 메모리 대역폭, 상호연결 토폴로지, 영상 정밀도 형식을 최적화할 수 있음 | 커스텀 실리콘 개발에는 수억 달러와 3 |
| Dojo vs. NVIDIA GPU 클러스터 | Tesla는 학습에 NVIDIA H100 클러스터도 사용(Dojo가 보완하지만 NVIDIA를 완전히 대체하지는 않음);NVIDIA H100은 GPU당 약 2,000 TFLOPS BF16 제공;10,000 GPU H100 클러스터 = 20 EFLOPS;Tesla의 Dojo + NVIDIA 합산 연산은 하이퍼스케일러 외에서 가장 큰 단일 기업 AI 연산 배치 중 하나로 추정(추정) | Tesla의 이중 트랙 전략(Dojo를 통한 영상 최적화 학습 + NVIDIA를 통한 범용 AI)은 실용주의를 반영:H100은 지금 당장 사용 가능;Dojo는 시간을 두고 확장. 둘 다 운영함으로써 Tesla는 Dojo가 성숙하기를 기다리지 않고 FSD를 지속 개선 가능 |
| 학습 데이터 파이프라인 | Tesla의 주요 연산 우위는 칩이 아닌 데이터:600만 대 × 일평균 FSD 활성 1시간 × 8대 카메라 = 방대한 일일 영상 볼륨;레이블링은 Data Engine으로 자동화(섀도우 모드:FSD가 결정하고 인간이 수정하면 수정 내용이 레이블된 학습 데이터가 됨) | Data Engine 자체의 연산 요구사항도 방대함:수백만 대 차량에서 섀도우 모드 추론을 실행하고 수정을 처리하려면 학습 연산뿐 아니라 상당한 추론 및 스토리지 인프라가 필요 |
| Dojo 배포 타임라인 | 첫 번째 Dojo ExaPOD는 2022년 텍사스 Gigafactory에서 운영 시작;머스크는 2024년 말까지 100 EFLOPS를 목표로 함(추정);실제 배포 속도는 완전히 공개되지 않음;그 이후 NVIDIA H100 클러스터에 대한 Tesla의 지속적인 투자는 Dojo 확장이 계획보다 느렸음을 시사(추정) | 계획보다 느린 Dojo 확장은 커스텀 실리콘의 전형적인 일정 초과와 일치함;이는 실패가 아닌——1세대 커스텀 칩의 정상적인 궤적. NVIDIA H100이 Dojo v2(차세대)까지 간격을 메움 |
| Dojo v2와 미래 연산 | Tesla는 차세대 Dojo 칩을 언급;2026년 중반 현재 세부사항 미공개(추정);Dojo v2가 세대당 2배 성능 향상의 전형적 패턴을 따른다면 Tesla의 학습 연산은 2027년까지 수백 EFLOPS에 도달할 수 있음(추정) | 궤적이 현재 용량보다 더 중요함:Dojo v2가 약속을 이행하고 Tesla의 학습 연산이 하이퍼스케일러 규모에 도달하면, Tesla는 그 수준에서 독자 AI 학습 실리콘을 보유한 유일한 비하이퍼스케일러가 됨 |
| 연산 전략 총평 | Tesla의 연산 접근법은 구축 대 구매의 최대 야심 버전:과도기에 NVIDIA를 임대하면서 특정 학습 워크로드에 최적화된 커스텀 칩과 슈퍼컴퓨터를 구축. 고위험(커스텀 실리콘은 종종 기대 이하), 고보상(Dojo가 설계대로 작동하면 FSD 개선당 학습 비용이 급감). 주요 리스크:Dojo D1이 NVIDIA 의존 지속에 비해 개발 비용을 정당화하는 성능 및 수율 목표를 달성하지 못할 가능성. |
섹션 3 — 연산 정면 비교
| 차원 | Waymo / Google TPU | Tesla Dojo + NVIDIA | 우위 |
|---|---|---|---|
| 학습 연산 규모(추정) | Google의 전체 TPU 플릿에 접근——잠재적으로 수백 EFLOPS(추정);모든 Google AI 프로젝트와 공유 | Tesla 합산 Dojo + NVIDIA 추정 수십 EFLOPS(추정);Tesla AI 워크로드 전용 | Waymo는 더 많은 총 연산에 접근;Tesla는 더 많은 전용 연산 보유 |
| 연산 비용 구조 | 사실상 보조(Alphabet 자회사);Google TPU에 시장가 지불 없음 | 혼합:Dojo 자본 지출을 학습 수명에 걸쳐 상각;NVIDIA H100은 시장가로 임대/구매;상당하지만 유한 | 현재 규모에서 학습당 연산 비용은 Waymo가 결정적 우위 |
| AV를 위한 칩 커스터마이제이션 | TPU는 Google의 워크로드에 최적화(AV 전용 아님);유연하지만 특화되지 않음 | Dojo D1은 AV 규모 영상 학습 전용으로 설계 | 칩 적합성에서 Tesla 결정적 우위;Waymo는 범용 AI 칩 사용 |
| 학습 데이터 볼륨 | 약 3,000만 무인 상업 주행 마일(추정);고순도(완전 무인 = 클린 레이블)지만 볼륨 적음 | 약 60억 감독형 FSD 마일(추정);레이블 순도 낮음(인간 감독)이지만 볼륨 방대 | 데이터 볼륨에서 Tesla 결정적 우위;데이터 순도에서 Waymo 결정적 우위 |
| 시뮬레이션 규모 | Google Cloud의 CarCraft 경유로 추정 150억 시뮬레이션 마일/일(추정) | Dojo 경유 성장 중인 시뮬레이션 능력;규모 미공개(추정) | 현재 시뮬레이션 규모에서 Waymo 결정적 우위 |
| 연산 로드맵 통제 | Google TPU 로드맵에 의존(TPU v5에서 v6 등);독자 칩 설계 없음 | Tesla는 AV 특화 최적화가 가능한 D1에서 D2로의 자체 칩 로드맵 통제 | 연산 주권 및 로드맵 통제에서 Tesla 결정적 우위 |
| 연산 총평 | Waymo의 Google Cloud / TPU 우위는 오늘날 구조적:더 많은 총 연산, 더 낮은 실효 비용, 업계 최고 TPU 성능, 비할 데 없는 시뮬레이션 규모. Tesla의 Dojo 우위는 장기적으로 전략적:특정 영상 학습 워크로드에 최적화된 전용 실리콘, 독립 로드맵, 다른 Alphabet AI 프로젝트와의 공유 없음. 2028년의 질문은 Dojo v2가 성능 약속을 이행할 수 있는가. |
섹션 4 — 연산이 AV 경쟁에서 결정하는 것
| AI 능력 | 연산이 결정하는 방법 | Waymo 우위 | Tesla 우위 |
|---|---|---|---|
| 인식 정확도 | 더 나은 학습 데이터 + 더 많은 연산 → 더 낮은 탐지 오류율;인식 모델은 수십억 개의 레이블된 프레임으로 학습 필요 | 무인 레이블 순도:학습 데이터에 인간 감독 노이즈 없음 | 60억 마일의 영상 데이터;볼륨이 희귀 케이스 커버리지 가능 |
| 예측(다른 에이전트) | 인간 행동 모델링에는 다양한 실제 시나리오에 대한 학습 필요;시뮬레이션이 실제 데이터가 커버할 수 없는 격차 보완 | 150억 시뮬레이션 마일/일이 엣지 케이스를 체계적으로 커버 | 실세계 데이터의 규모가 시뮬레이션이 근사하는 행동 다양성 제공 |
| 계획(무엇을 할지) | 계획 정책 학습에는 엣지 케이스를 안전하게 테스트하기 위한 대규모 시뮬레이션 필요;실제 테스트는 희귀 시나리오에 너무 위험하고 비용이 많이 듦 | Google Cloud 시뮬레이션 규모가 계획 정책 개선에 결정적 | 엔드투엔드 FSD v12가 인식과 계획을 하나의 네트워크로 통합——연산 문제를 2단계에서 1단계로 축소 |
| 일반화(새 도시) | 새 도시로의 일반화에는 (a) 해당 도시 데이터로 학습 또는 (b) 해당 도시 시나리오에 대한 연산 집약적 시뮬레이션 필요 | HD 지도 + 시뮬레이션 접근법은 Waymo가 상업 개시 전 각 새 도시의 지도를 생성하고 시뮬레이션해야 함을 의미 | Tesla의 맵리스 FSD 접근법은 도시별 시뮬레이션 불필요;모델이 학습 분포에서 일반화 |
| 모델 반복 속도 | 더 빠른 학습 연산 → 주당 더 많은 실험 → 더 빠른 모델 개선 | 더 많은 TPU 접근 = 더 많은 동시 실험 가능 | 전용 Dojo 연산 = 다른 Google AI 프로젝트와의 경합 없음 |
섹션 5 — 연산 벤치마크 스코어카드
| 차원 | Waymo / Google | Tesla Dojo + NVIDIA | 우위 | 2028년 전망 |
|---|---|---|---|---|
| 총 학습 연산 접근 | 결정적 — Google TPU 플릿은 지구상 가장 큰 AI 연산 배치 중 하나 | 대규모이지만 Google 규모에 미치지 못함 | Waymo(현재) | Dojo 확장에 따라 Tesla가 격차 축소 |
| 연산 비용 효율 | 결정적 — Alphabet 자회사로서 사실상 보조 | 시장가의 NVIDIA + Dojo 자본 지출 | Waymo(현재) | Dojo D2 납품 여부에 따라 결정 |
| AV 워크로드 실리콘 적합성 | 범용 TPU(유연하지만 AV 최적화 아님) | Dojo D1은 영상 학습 전용 설계(AV 최적화) | Tesla | Tesla의 목적 특화 실리콘은 약속을 이행하면 장기 우위 |
| 연산 로드맵 통제 | Google TPU 로드맵에 의존 | 독립적인 Dojo 로드맵 | Tesla | Tesla의 실리콘 로드맵 통제는 전략적 자산 |
| 시뮬레이션 규모 | 결정적 — 추정 150억 시뮬레이션 마일/일(추정) | 성장 중;규모 미공개(추정) | Waymo(현재) | 양사 모두 확장;Waymo의 선행 우위 중요 |
| 학습 데이터 품질 × 볼륨 | 더 높은 순도(무인), 더 낮은 볼륨 | 더 낮은 순도(감독형), 훨씬 높은 볼륨 | 사용 사례에 따라 다름 | Tesla 차량 증가에 따라 볼륨 우위가 복리 축적 |
| 총합 평정 | Waymo는 오늘날 대부분의 지표에서 우수한 연산 인프라 보유:더 많은 TPU 접근, 더 낮은 실효 비용, 세계 최고의 시뮬레이션 규모. Tesla의 베팅은 Dojo——영상 학습을 위해 특별 구축——가 결국 범용 TPU보다 낮은 학습 실행당 비용을 제공할 것이며, 데이터 볼륨(600만 대)이 낮은 레이블 순도를 충분히 보상할 것이라는 것. 2028년 연산 경쟁은 Dojo v2 vs TPU v6:어느 칩 로드맵이 대규모에서 범용 AV 정책 학습의 특정 수요를 더 잘 충족하는가. |
(추정)으로 표시된 모든 수치는 공개 회사 공시, 분석가 추정 및 업계 벤치마크에서 도출되었습니다. 이 기사는 피지컬 AI 벤치마크 시리즈 제165편입니다.
출처
- Tesla Dojo D1 칩 아키텍처 — Tesla AI Day 2021 ↗
- Google TPU v5 발표 — Google Cloud ↗
- Waymo CarCraft 시뮬레이션 — Waymo 연구 블로그 ↗
- Tesla FSD 학습 데이터 파이프라인 — Tesla AI Day 2022 ↗
- Google Alphabet AI 인프라 — Alphabet 실적 ↗