2026-06-18 — views

Physical AI 컴퓨팅 2026 — Waymo Google TPU 대 Tesla Dojo D1·FSD 칩: AI 훈련 인프라 군비경쟁 벤치마크

Waymo는 Google TPU 클러스터로 훈련하고, Tesla는 Dojo D1과 600만 대 차량 데이터를 활용한다. 훈련 컴퓨팅 격차는 Physical AI의 숨겨진 속도 제한자다.

Physical AI 벤치마크 시리즈 제182편 — AI 훈련 및 추론 인프라

세계 최고의 자율주행 시스템을 구축하는 경쟁은 AI 컴퓨팅 경쟁이기도 하다. 훈련 컴퓨팅은 각 회사가 모델을 개선하는 속도를 결정하고, 추론 컴퓨팅은 그 개선된 모델이 차량에서 실시간으로 동작할 수 있는지를 결정한다. 두 차원 모두 중요하다——그러나 센서 하드웨어, 안전 주행 마일수, 규제 승인과 동일한 엄격함으로 분석되는 경우는 거의 없다. 본 기사는 Waymo와 Tesla의 AI 훈련·추론 인프라를 핵심 Physical AI 경쟁력 변수로 벤치마크한다.

제1절: AI 훈련 컴퓨팅이 Physical AI의 속도 제한자인 이유

자율주행은 근본적으로 머신러닝 문제다. 자율주행 시스템의 품질은 두 가지에 의해 제한된다: 훈련 데이터의 품질, 그리고 그 데이터를 훈련하는 데 사용 가능한 컴퓨팅이다. 컴퓨팅이 많을수록 더 큰 모델 훈련이 가능하고, 더 많은 실험을 실행하며, 반복 주기를 빠르게 하고, 일반화 능력을 높일 수 있다. 같은 데이터셋을 10배 더 많은 컴퓨팅으로 훈련하면 확실히 더 나은 모델이 생성된다. 훈련 컴퓨팅은 “개선 속도”의 레버다——품질 상한이 상승하는 속도를 결정하는 변수다.

두 가지 핵심 컴퓨팅 차원이 Physical AI 경쟁을 형성한다:

훈련 컴퓨팅 — 오프라인에서 모델을 개선하는 데 사용되며, 본사에서 수행된다. Google TPU와 Tesla Dojo가 경쟁하는 영역이다. 훈련 컴퓨팅은 오늘의 차량에는 영향을 미치지 않지만, 다음 분기의 소프트웨어 업데이트 품질을 결정한다.

추론 컴퓨팅 — 차량 내부에서 모델을 실시간으로 실행하는 칩. Tesla FSD HW3/HW4 실리콘과 Waymo의 차내 컴퓨팅이 경쟁하는 영역이다. 추론 컴퓨팅은 현재 차량이 오늘 안전하게 실행할 수 있는 것을 결정한다.

훈련과 추론은 별개의 과제다. 세계 최고 수준의 훈련 컴퓨팅을 보유하면서도 차내 추론 능력이 제한적이거나 그 반대인 경우도 있다. 복리 우위는 두 영역 모두에서 탁월함으로부터 나온다.

NVIDIA 지배가 기준선: 대부분의 AV 기업——Zoox, Aurora, Mobileye, Cruise——은 NVIDIA GPU 클러스터(A100, H100, H200)에서 모델을 훈련한다. 이것이 범용화된 기준선이다. 흥미로운 경쟁 차별화는 두 방향으로 기준에서 벗어나는 회사들에서 나온다: (1) 독점 비NVIDIA 훈련 실리콘에 대한 접근(Waymo는 Google TPU 경유, Alphabet이 모회사), 또는 (2) 맞춤형 훈련 실리콘에 대한 투자(Tesla의 Dojo D1).

수직 통합의 희귀성: Tesla는 자체 훈련 실리콘(Dojo D1)과 자체 추론 실리콘(FSD 칩, TSMC 제조) 모두를 구축하는 극소수 기업 중 하나다. 이 수직 통합은 비용이 많이 들고 기술적으로 까다롭지만, NVIDIA 공급 제약과 비용 구조로부터 전략적 독립성을 제공한다.

제2절: Waymo의 컴퓨팅 우위 — Google TPU 접근

Waymo의 훈련 컴퓨팅에서의 구조적 우위는 한 가지 사실에서 비롯된다: Alphabet의 자회사라는 것이다. Alphabet은 지구상 가장 대규모의 맞춤형 AI 컴퓨팅 배포 중 하나를 구축했으며, Waymo는 내부 이전 가격으로 이 인프라에서 모델을 훈련한다.

차원	세부사항
훈련 인프라	Waymo는 Google의 TPU(텐서 처리 장치) 클러스터에서 모델을 훈련한다. Google은 세계 최대 규모의 TPU 배포 중 하나를 보유한다. Alphabet 자회사로서 Waymo는 내부 이전 가격으로 우선 접근을 받으며——상업용 GPU 클러스터 임대료보다 훨씬 낮다.
Google TPU v4 사양	Google TPU v4는 칩당 추정 275 TFLOPS(BF16)를 제공한다. TPU v5e는 칩당 추정 197 TFLOPS이지만 메모리 대역폭과 인터커넥트 아키텍처가 크게 향상됐다. Google은 수백에서 수천 개의 칩을 고대역폭 패브릭으로 상호 연결한 TPU 팟을 운영한다.
실효 훈련 용량	Alphabet 인프라에서 Waymo가 도출하는 실효 훈련 컴퓨팅 용량은 독립 AV 신생기업과 대부분의 AV 자회사를 능가할 가능성이 높다. Zoox(Amazon AWS)와 Waymo(Google TPU)만이 이 수준의 클라우드 모회사 컴퓨팅 우위를 보유한다.
컴퓨팅 접근 비용	Waymo는 내부 이전 가격으로 Alphabet에 컴퓨팅 비용을 지불하며, 동등한 GPU 클러스터의 시장 가격보다 크게 낮은 것으로 추정된다. 정확한 수치는 공개되지 않았다.
훈련 데이터 파이프라인	Waymo의 훈련 데이터는 무인 상업 차량(상업 승차의 센서 데이터), 고정밀 지도 데이터, Carcraft 시뮬레이션에서 나온다. LIDAR + 카메라 + 레이더는 카메라 전용 접근보다 프레임당 신호가 풍부한 멀티모달 훈련 데이터를 생성한다.
Carcraft 시뮬레이션	Waymo는 Carcraft 시뮬레이션 플랫폼을 사용해 대규모로 합성 훈련 시나리오를 생성한다. Carcraft는 하루에 수백만 마일의 시뮬레이션을 실행한다고 알려져 있다.
독립 AV 기업과의 비교	Waymo의 Google TPU 접근은 공개 시장에서 NVIDIA GPU 클러스터를 구매하거나 임대해야 하는 AV 기업에 대한 구조적 컴퓨팅 우위다. Aurora, Mobileye, Zoox(AWS 있음)은 모두 GPU 클러스터 계층에서 운영한다.
Waymo의 핵심 컴퓨팅 제약	Google TPU 접근에도 불구하고, Waymo의 훈련 데이터량은 차량 규모에 의해 제한된다——2026년 중반 기준 약 2,500대로 추정된다. Tesla의 600만 대 이상 FSD 지원 차량 차량이 생성하는 훈련 데이터는 규모 면에서 훨씬 크다. 컴퓨팅으로는 이 규모의 데이터 격차를 보완할 수 없다.

제3절: Tesla Dojo — 맞춤형 훈련 실리콘의 규모화

Tesla의 Dojo D1에 대한 전략적 베팅은 기술 업계에서 가장 야심 찬 맞춤형 실리콘 프로젝트 중 하나다. 맞춤형 AI 슈퍼컴퓨터를 처음부터 구축하는 것——칩, 인터커넥트, 냉각, 소프트웨어 스택, 훈련 프레임워크 설계——은 거의 다른 회사가 시도하지 않은 다년간의 자본과 엔지니어링 인재 투입을 필요로 했다.

차원	세부사항
Dojo란 무엇인가	Dojo는 FSD 훈련의 지배적인 모달리티인 비디오 훈련을 위해 특별히 구축된 Tesla의 맞춤형 AI 슈퍼컴퓨터다. Tesla 차량은 수십억 마일의 카메라 영상을 생성한다. 이 데이터를 대규모로 효율적으로 처리하려면 범용 ML이 아닌 비디오 워크로드용으로 최적화된 하드웨어가 필요하다. Dojo가 그 하드웨어다.
D1 칩 사양(추정)	Tesla D1 칩: 칩당 추정 362 TFLOPS(BF16). 맞춤형 칩간 인터페이스를 통한 고대역폭 상호 연결 설계. 25개의 D1 칩이 “훈련 타일”을 형성한다. 타일이 ExaPOD 캐비닛으로 연결된다. 아키텍처는 대규모 비디오 훈련의 지배적 비용인 칩간 데이터 이동 비용을 최소화하도록 설계됐다. 모든 수치는 Tesla AI Day 2022 공개 자료의 추정값이다.
Dojo 대 NVIDIA H100	NVIDIA H100: 칩당 추정 989 TFLOPS(BF16)——D1의 약 2.7배의 칩당 처리량. 그러나 D1은 대규모 배포 시 낮은 FLOP당 비용을 위해 설계됐으며, Tesla가 실행하는 비디오 훈련 워크로드에 범용 ML이 아닌 최적화됐다. 충분히 큰 규모에서 Dojo 아키텍처는 Tesla의 특정 워크로드 프로필에 더 나은 비용 효율성을 제공할 수 있다.
Dojo 규모(추정)	Tesla는 2023-2024년에 Dojo 용량 램프업을 시작했다. 목표: 2025-2026년까지 멀티 exaFLOP 클러스터(추정). 정확한 현재 배포 용량은 공개되지 않았다. Elon Musk는 여러 주주 및 제품 행사에서 공격적인 Dojo 확장 목표를 인용했다.
Tesla가 Dojo를 구축한 이유	세 가지 동기: (1) 2021-2023년 부족 기간 중 NVIDIA GPU 공급 제약으로 인한 단일 공급원 의존 위험; (2) Tesla의 특정 비디오 훈련 워크로드 프로필에서 규모화 시 낮은 FLOP당 비용; (3) NVIDIA 가격 및 할당 결정으로부터의 전략적 독립성. 잠재적인 네 번째 동기: 외부 AI 및 비디오 처리 기업에 서비스로서 Dojo 컴퓨팅 판매.
Dojo 훈련 적용	주요: FSD 비디오 훈련——Tesla의 600만 대 이상 차량에서 수십억 마일의 카메라 영상 처리. 2차: 동일한 비디오 기반 접근 방식을 사용하는 Optimus 휴머노이드 로봇 신경망 훈련.
Dojo + NVIDIA 하이브리드	Tesla는 Dojo와 나란히 대규모 NVIDIA H100 클러스터도 운영한다. 2024년 추정에 따르면 Tesla의 훈련 인프라에 약 3만 대 이상의 H100 GPU가 있다(추정). Dojo는 단기적으로 NVIDIA를 대체하는 것이 아닌 추가 용량이다.
Dojo 자본 지출(추정)	Dojo 구축은 자본 집약적이다. Tesla는 2024년까지 10억 달러 이상(추정)의 Dojo 투자를 인용했다. 지속적인 확장으로 이 수치가 증가한다.

제4절: 차내 추론 — FSD 칩 대 Waymo의 차내 컴퓨팅

훈련 컴퓨팅과 추론 컴퓨팅은 별개의 경주다. 더 나은 훈련 클러스터는 더 나은 모델을 생산한다. 그러나 그 모델들은 낮은 지연, 낮은 전력 소비로 에지 케이스 처리를 위한 충분한 여유를 갖고 차량 내부 하드웨어에서 실시간으로 실행돼야 한다. 차내 추론 칩은 Physical AI의 “마지막 마일”——훈련 개선을 실세계 주행 능력으로 변환하는 컴포넌트다.

차원	Waymo	Tesla FSD	비고
차내 컴퓨팅 플랫폼	Waymo는 차량에 맞춤형 컴퓨팅 하드웨어를 사용한다. 구체적인 칩 사양은 공개되지 않았다. 하드웨어는 인지 융합(LIDAR + 카메라 + 레이더), 예측, 계획을 동시에 실시간으로 실행해야 한다.	Tesla HW3: 추정 144 TOPS——현행 FSD 지원 차량 대부분에 탑재. Tesla HW4: 추정 1,000 TOPS 이상——2023년 초 이후 신형 차량. 하드웨어 세대 간 상당한 도약.	Tesla는 FSD 칩 아키텍처 세부사항을 공개했다. Waymo는 차내 하드웨어 사양을 공개하지 않았다.
맞춤형 실리콘	Waymo는 맞춤형 차내 추론 칩을 발표하지 않았다. 차내 컴퓨팅에는 상업용 가속기 하드웨어를 사용할 가능성이 높다.	Tesla는 TSMC 제조 독자 FSD 추론 칩을 설계한다. 내부 칩 설계팀이 여러 세대(HW1~HW4)를 실행했다. AV 기업으로서 극히 드물다.	Tesla의 훈련(Dojo)부터 추론(FSD 칩)까지의 칩 수직 통합은 AV 기업 중 타의 추종을 불허한다.
추론 효율성	Waymo의 멀티 센서 융합(LIDAR + 카메라 + 레이더)은 여러 모달리티를 융합하기 위해 프레임당 상당한 컴퓨팅이 필요하다.	Tesla의 카메라 전용 접근 방식은 센서당 컴퓨팅 수요를 줄이지만, 엔드투엔드 신경망 모델은 크다. HW4의 1,000+ TOPS는 더 큰 모델과 더 복잡한 추론을 위한 충분한 여유를 제공한다.	Tesla HW4의 컴퓨팅 여유는 HW3에서 불가능한 기능을 가능하게 할 수 있어 신형 차량의 소프트웨어 개선 상한을 가속한다.
OTA 모델 배포	Waymo는 OTA를 통해 차량 전반에 소프트웨어와 ML 모델을 업데이트한다. 차량 모두가 동시에 모델 개선을 받는다.	Tesla는 OTA를 통해 FSD 소프트웨어를 업데이트한다. 하드웨어 능력은 고정(HW3 대 HW4)이지만 소프트웨어는 기존 하드웨어의 컴퓨팅 범위 내에서 점점 더 많은 것을 추출할 수 있다.	두 차량 모두 OTA를 통해 동시에 모델 개선을 받는다. Tesla의 600만 대 이상 차량은 각 모델 개선을 훨씬 더 큰 기반에 배포한다.
차량 전반 개선 승수	Waymo의 추정 2,500대 차량이 동시에 모델 업데이트의 혜택을 받는다.	Tesla의 600만 대 이상 FSD 지원 차량이 동일한 OTA 모델 업데이트를 동시에 받는다.	각 모델 개선의 가치는 차량 규모와 함께 배가된다. Tesla의 차량 승수는 Waymo의 약 2,400배다.

제5절: AI 컴퓨팅 벤치마크 점수표

차원	Waymo / Alphabet	Tesla	2028년 전망	우위
훈련 컴퓨팅 접근	Google TPU 팟 인프라(대규모, 내부 이전 가격)	NVIDIA H100 클러스터(추정 3만 대 이상) + Dojo D1(맞춤형, 성장 중)	두 회사 모두 대규모 운영; Dojo 확장으로 격차 축소	대략 동등——Waymo Google TPU 대 Tesla Dojo + NVIDIA
훈련 컴퓨팅 비용	내부 이전 가격——시장 가격보다 크게 낮은 것으로 추정	상당한 자본 지출(Dojo) + 운영 비용(NVIDIA 클러스터 임대, 추정)	Dojo FLOP당 비용은 규모화 시 크게 하락할 수 있음	Waymo(단기 훈련 비용 낮을 가능성)
훈련 데이터량	추정 2,500대 차량으로 제한——Tesla보다 수 자릿수 적음	600만 대 이상 FSD 지원 차량이 실세계 카메라 데이터를 지속 생성	Tesla 차량 성장으로 격차가 계속 확대	Tesla(압도적이고 복리적인 우위)
맞춤형 훈련 실리콘	없음——Alphabet/Google TPU 사용(Google 설계, Waymo 설계 아님)	Dojo D1(Tesla 설계, NVIDIA 비의존, 맞춤형 비디오 훈련 아키텍처)	Tesla는 Dojo 자급자족을 향해 전진	Tesla(전략적 독립성)
차내 추론 칩	맞춤형 하드웨어——사양 비공개	HW3(추정 144 TOPS) + HW4(추정 1,000+ TOPS), TSMC 제조 맞춤형 FSD 칩	HW5 개발 중 가능성; Tesla 추론 로드맵 전진	Tesla(공개 사양, HW4 충분한 여유)
OTA 개선 배포	추정 2,500대 차량이 각 모델 업데이트 수신	600만 대 이상 차량이 각 OTA 모델 업데이트를 동시에 수신	차량 성장으로 격차 확대	Tesla
수직 통합	부분적——훈련용 Google TPU, 추론용 미공개 하드웨어	높음——훈련용 Dojo, 추론용 맞춤형 FSD 칩, OTA 소프트웨어 스택	Tesla가 AV 기업 중 실리콘 측면에서 가장 수직 통합된 기업	Tesla

총체적 평결: Google TPU 인프라에 대한 Waymo의 접근은 독립 AV 신생기업과 대부분의 AV 자회사에 대한 의미 있는 훈련 컴퓨팅 우위다——그러나 Waymo의 소규모 차량으로 인한 훈련 데이터 격차를 보완할 수는 없다. Tesla의 데이터 우위(600만 대 이상 차량이 수십억 마일의 실세계 데이터 생성)와 Dojo의 성장하는 훈련 용량, FSD 칩의 추론 컴퓨팅이 결합해 어떤 경쟁자도 필적할 수 없는 데이터+컴퓨팅 복리 플라이휠을 만들어낸다.

이 분석에서 가장 중요한 통찰: 규모화된 머신러닝에서 충분한 품질의 데이터량은 단순한 컴퓨팅 양을 거의 항상 능가한다. Tesla는 모든 경쟁자보다 더 많은 데이터를 보유하고, 또한 성장하는 컴퓨팅을 보유한다. Waymo는 데이터 포인트당 더 많은 컴퓨팅을 보유하지만——데이터 포인트 수는 수 자릿수 더 적다. 가장 중요한 차원에서 훈련 군비경쟁은 현재 Tesla에 유리하게 진행되고 있다: (훈련 데이터량) × (모델 반복 속도)의 곱이라는 측면에서. Waymo의 Google TPU 우위는 실재한다. Tesla의 데이터 플라이휠이 더 크다.

제6절: 이 시리즈에 대하여

본 기사는 Physical AI 벤치마크 시리즈 제182편이다. 이전 편들에서는 램프 지수, 휴머노이드 경쟁, 단위 경제학, 글로벌 경쟁, 고정밀 지도, 차량 운영, 소프트웨어·OTA 아키텍처, 보험·책임, 파트너십, 경쟁 해자, Cybercab 대 Model Y, 안전 데이터, Waymo Gen 6, Optimus 제조, 스코어카드 스냅샷, 2030년 예측 시나리오, 투자자 프레임워크, Waymo 도시 확장, Tesla 주별 승인 현황, AV 기상 제약, 인재 전쟁, 규제 일정, 로보택시 요금 책정, 데이터 플라이휠 비교, 휴머노이드 배포 추적, 공급망 분석, 소비자 수요, Waymo 기업가치·IPO 분석, 소프트웨어 아키텍처 심층 분석, FSD 타임라인 역사를 다뤘다.

본 기사는 AI 훈련 인프라 차원을 추가한다: 각 회사가 배포하는 훈련 컴퓨팅, 차내 추론 하드웨어 비교, 그리고 훈련 데이터량과 훈련 컴퓨팅 용량의 상호작용이 왜 Physical AI 품질 개선의 숨겨진 속도 제한자인지. 컴퓨팅 군비경쟁은 대부분의 분석가에게 보이지 않는다——그러나 바로 이 층이 각 회사의 다음 소프트웨어 업데이트 품질 상한이 상승하는 속도를 결정한다.