2026-06-18 — views
2026 Physical AI 컴퓨팅 경쟁 — NVIDIA B200 vs Tesla Dojo vs Google TPU: AV·로보틱스 훈련 인프라 벤치마크
NVIDIA B200 추정 9 exaFLOPS가 거의 모든 AV AI 훈련을 지원. Tesla Dojo는 자체 실리콘에 베팅, Waymo는 Alphabet을 통해 Google TPU 활용. 컴퓨팅이 승패를 결정한다.
Physical AI 벤치마크 시리즈 205호 — 2026 Physical AI 컴퓨팅 경쟁: NVIDIA H100/B200 vs Tesla Dojo vs Google TPU — AV·로보틱스 AI 훈련 인프라 벤치마크
Physical AI 경쟁은 본질적으로 컴퓨팅 경쟁이다. 단위 시간당 더 많은 훈련 실험을 실행할 수 있는 기업이 더 빠르게 반복하고, 더 우수한 자율주행 및 로보틱스 정책을 더 빠르게 발견하며, 최종적으로 더 우수한 제품을 더 빠르게 배포할 수 있다. 이것은 대규모 언어 모델에서 물리적 시스템에 직접 적용된 교훈이다: 스케일 법칙은 효과적이며, 더 많은 훈련 컴퓨팅을 가진 조직이 중장기 시간 축에서 승리한다. 2026년, 세 가지 훈련 컴퓨팅 생태계가 Physical AI 스택의 주도권을 놓고 경쟁하고 있다——NVIDIA의 GPU 클러스터(H100, H200, Blackwell B200), Tesla의 독자 Dojo 슈퍼컴퓨터, 그리고 Google의 TPU 인프라(Alphabet 소유 구조를 통해 Waymo가 사용). 각 시스템의 아키텍처, 비용 구조, 전략적 의미를 이해하는 것이 이번 십년 후반부의 AV 및 로보틱스 경쟁에서 누가 승리할지를 판단하는 핵심이다.
1절 — 컴퓨팅이 Physical AI의 결전장인 이유
Physical AI의 진보 속도는 대규모 언어 모델과 마찬가지로 컴퓨팅에 의해 제한된다. AV 기업이 신경망 훈련에 투입할 수 있는 GPU 시간이 많을수록, 이탈률 하락이 빠르고, 모델이 일반화되는 지리적 범위가 넓어지며, 모델이 정확하게 처리할 수 있는 엣지 케이스의 꼬리가 길어진다. 스케일 법칙은 Physical AI에서 희망이 아니라, 모든 진지한 경쟁자가 자신의 로드맵을 구축하는 관찰된 경험적 규칙이다.
| 원칙 | 설명 | Physical AI 의미 |
|---|---|---|
| 스케일 법칙 적용 | 신경망 성능은 컴퓨팅, 데이터, 더 큰 모델의 증가와 함께 예측 가능하게 향상된다(Chinchilla 스케일 법칙; OpenAI 스케일링 논문) | 더 많은 훈련 컴퓨팅 + 더 많은 데이터 = 더 우수한 자율주행 또는 로보틱스 정책 — LLM이 스케일로 개선되는 것과 동일한 메커니즘 |
| 두 가지 별개의 컴퓨팅 환경 | 훈련 컴퓨팅(클러스터 규모 GPU/TPU, 수천 개 칩) vs 추론 컴퓨팅(차량 탑재 칩, 배포된 모델 실행) | 다른 최적화 목표: 훈련 = 처리량 극대화 및 실험당 비용 최소화; 추론 = 결정당 지연 및 전력 소비 최소화 |
| 훈련 데이터 볼륨 | Tesla 차량 대수가 매주 추정 수천만 마일의 훈련 데이터를 생성(추정); 이를 모두 처리하려면 막대한 훈련 컴퓨팅이 필요 | 훈련 컴퓨팅이 부족하면 데이터 플라이휠이 느려진다 — 수집된 데이터가 처리되지 않고 쌓인다; 데이터 볼륨 우위가 낭비된다 |
| 반복 속도의 복리 효과 | 더 빠른 훈련 = 단위 시간당 더 많은 실험 = 더 빠른 아키텍처 발견; 2~3년 내에 이 복리가 상당한 모델 품질 격차를 만든다 | 달러당 3배 더 많은 훈련 실험을 실행하는 기업이 3배 더 빠르게 더 우수한 정책을 발견; 24~36개월 내에 복리가 큰 격차를 만든다 |
| 추론 지연은 안전에 직결 | 시속 60마일에서 100ms의 지각 지연 = 2.7미터의 장님 주행 거리 | 차량 탑재 추론은 차량이 위험한 거리를 주행하기 전에 도로 위험에 반응할 수 있을 만큼 빨라야 한다 |
훈련 컴퓨팅은 데이터로부터 AV 및 로보틱스 AI 모델을 구축하는 “실험실”이다. 데이터 센터의 대형 GPU 또는 TPU 클러스터——수천에서 수만 개의 칩——에서 동작한다. 이 경쟁의 핵심은 FLOP당 비용, 클러스터 처리량, 인터커넥트 대역폭, 대형 모델에 필요한 메모리 용량에 있다. Physical AI 모델은 일반적으로 대규모다: Transformer 기반 지각 모델, 로보틱스 조작을 위한 확산 정책, 엔드투엔드 비디오-행동 신경망. 이러한 모델에 대해 수십억 개의 훈련 프레임에 걸쳐 경사 하강법을 실행하려면 exaFLOPS 단위로 측정되는 컴퓨팅 규모가 필요하다.
추론 컴퓨팅은 “차량” 측——배포된 모델이 물리적 시스템 위에서 실시간으로 실행된다. AV의 경우, 이것은 차에 내장된 칩으로, 8개의 카메라 피드를 처리하고, 완전한 신경망을 실행하며, 밀리초 내에 조향, 가속, 제동 명령을 출력해야 한다. Tesla FSD HW4 칩(추정 350+ TOPS(추정))과 Waymo의 차량 탑재 컴퓨팅(세대에 따라 NVIDIA DRIVE 또는 독자 솔루션)이 이 경쟁의 추론 측을 구성한다.
AMD 요인은 실재하지만 2026년에는 여전히 부차적인 위치에 있다. AMD MI300X는 192 GB HBM3 메모리(H100의 80 GB보다 많음)와 추정 2.6 exaFLOPS FP8(추정)을 제공한다——경쟁력 있는 원시 사양이다. 하지만 CUDA 에코시스템의 잠금 효과가 전환 비용을 높게 만든다. 거의 모든 AV 훈련 코드는 CUDA용으로 작성되었으며, AMD의 ROCm 소프트웨어 스택의 성숙도는 낮다. 일부 AV 기업은 비용상의 이유로 AMD 클러스터를 사용할 수 있지만, NVIDIA 에코시스템 지배력이 2026년 업계의 기본 선택이다.
2절 — NVIDIA의 AV·로보틱스 훈련 클러스터 지배
NVIDIA는 독자적인 훈련 실리콘을 보유하지 않은 거의 모든 AV 및 로보틱스 기업에 훈련 컴퓨팅 인프라를 제공한다. H100, H200, Blackwell B200이 표준 스택을 형성한다. NVIDIA의 Isaac 시뮬레이션 스위트(Isaac Lab, Isaac Gym)는 로보틱스 훈련 데이터 생성을 위한 GPU 가속 물리 시뮬레이션을 제공한다. DRIVE 플랫폼은 독자 실리콘을 구축하지 않는 AV 기업의 차량 탑재 추론을 담당한다.
| NVIDIA 칩 | 사양 | Physical AI 사용 사례 | 가격·공급(추정) |
|---|---|---|---|
| H100 SXM5 | 80 GB HBM3; 추정 3.35 exaFLOPS FP8(추정); NVLink 4.0; 700W TDP; DGX H100 = 8 H100/시스템 | 2024-2025년 거의 모든 AV 기업의 주요 훈련 칩; Waymo, Aurora, Figure AI, Agility, Boston Dynamics Atlas; 지각 모델·운동 예측·궤적 최적화 훈련에 사용 | 추정 $25K-$30K/칩(추정); DGX H100 시스템 추정 $200K-$250K(추정); 클라우드 H100: 추정 $2-$3/시/GPU(추정) |
| H200 SXM5 | 141 GB HBM3e(H100보다 75% 더 많은 메모리); 컴퓨팅 바운드 워크로드에서 H100과 동일한 훈련 처리량; 메모리 바운드 작업에서 대역폭 우위 | 대형 모델 Physical AI 훈련(Figure AI의 VLM, Tesla의 엔드투엔드 모델 등 시각 언어 모델); 더 큰 배치 크기를 가능하게 하는 높은 메모리 용량 | 추정 $30K-$40K/칩(추정); 2024-2025년 배포 주기에서 H100의 후계자 |
| B100 / B200(Blackwell) | B200: 추정 192 GB HBM3e(추정); 추정 9 exaFLOPS FP8(추정) — H100의 약 3배; NVLink 5.0 | 차세대 AV 훈련; Figure AI, Tesla, Aurora가 2025-2026년 Blackwell로 훈련 클러스터 전환 가능성; 칩당 3배 처리량으로 훈련 시간 비례 단축 | 추정 $35K-$45K/칩(추정); 2025-2026년 생산 능력 확대 중; Blackwell 초기 수요 공급 초과 |
| Jetson AGX Orin(추론) | 275 TOPS 차량 탑재 추론 플랫폼; 64 GB LPDDR5; 엣지 AI 추론을 위한 전용 설계 | Agility Robotics Digit가 Jetson급 컴퓨팅 사용; Boston Dynamics Atlas 개발; Waymo와 Tesla 차량에서는 사용 안 함(둘 다 독자 실리콘 사용) | 추정 개발자 키트 $1,099(추정); 양산 모듈 가격은 더 낮음 |
| NVIDIA DRIVE 플랫폼 | DRIVE Orin: 254 TOPS/칩; DRIVE Thor(후계): 추정 2,000 TOPS(추정) | Waymo Gen 5는 보고에 따르면 NVIDIA 하드웨어 사용; 여러 AV 스타트업이 DRIVE 플랫폼 사용; 독자 실리콘을 구축하지 않는 기업의 표준 AV 추론 컴퓨팅 | DRIVE Orin 양산 가격 추정 $500-$2,000/차량(추정); DRIVE Thor 가격 추정 더 높음 |
| NVIDIA Isaac(로보틱스) | Isaac ROS: 로보틱스 미들웨어; Isaac Lab: 강화 학습 시뮬레이션 프레임워크; Isaac Gym: GPU 가속 물리 시뮬레이션 | Figure AI, Agility Robotics 등이 합성 훈련 데이터 생성을 위해 NVIDIA Isaac 시뮬레이션 스택 사용; GPU 가속 시뮬레이션이 물리적 수집보다 더 다양한 훈련 시나리오 생성 가능 | 소프트웨어: 오픈 소스; 하드웨어: Isaac 시뮬레이션 워크로드를 위한 표준 GPU 클러스터 |
클러스터 규모에서 경제적 영향은 상당하다. 10,000개 H100 클러스터——진지한 AV 훈련에 필요한 규모——는 하드웨어만으로 추정 $2.5억-$3억(추정)이 든다. Blackwell B200으로의 전환(추정 9 exaFLOPS/칩 vs H100의 추정 3.35 exaFLOPS)은 동일한 자본 지출로 3배의 훈련 처리량, 또는 약 3분의 1의 하드웨어 수로 동일한 처리량을 의미한다.
3절 — Tesla Dojo: 독자 훈련 인프라
Tesla의 Dojo 슈퍼컴퓨터는 Physical AI에서 가장 야심찬 컴퓨팅 인프라 차별화 전략이다. Tesla는 NVIDIA GPU를 임대하거나 클라우드 TPU를 사용하는 대신, 독자 훈련 칩(D1), 독자 훈련 타일(25개의 D1 칩), 독자 훈련 캐비닛(ExaPOD, 120개의 타일)을 구축했다. 전략적 논리는 Tesla의 특정 훈련 워크로드——600만대 이상의 차량 대수에서 나온 수억 개의 블랙박스 동영상 클립 처리——가 충분히 전문화되어 있어, 이 워크로드에 최적화된 전용 칩이 이 특정 작업에서 FLOP당 비용으로 범용 GPU 훈련을 능가할 것이라는 것이다.
| Dojo 차원 | 현황 | 전략적 의미 | 위험·불확실성 |
|---|---|---|---|
| D1 칩 아키텍처 | TSMC 7nm 공정; 추정 362 TFLOPS FP32(추정)/칩; 훈련 타일당 25개의 D1; 타일 내 고대역폭 칩 간 인터커넥트; 비디오 입력 신경망 훈련을 위한 설계(FSD 주요 훈련 워크로드) | D1 아키텍처는 Tesla의 특정 워크로드에 최적화: FSD 신경망 훈련을 위한 수백만 시간의 블랙박스 동영상 처리; 타일 내 칩 간 인터커넥트 대역폭(추정 약 10 TB/s)이 비디오 훈련의 경사 동기화 패턴에 맞게 조정 | D1의 성능 우위는 워크로드 특이적; 범용 LLM 훈련의 경우 H100 또는 B200이 우위; Tesla의 비디오 집약적 워크로드의 경우 D1의 인터커넥트 대역폭이 최적화 지점일 수 있음 |
| ExaPOD와 클러스터 규모 | 1개 훈련 타일 = 25개의 D1; 1개 ExaPOD 캐비닛 = 120개 훈련 타일 = 3,000개의 D1; 여러 ExaPOD 캐비닛이 Dojo 슈퍼컴퓨터 클러스터를 형성; Tesla 목표: ExaPOD당 추정 1 exaFLOP+ 훈련 용량(추정) | exaFLOP 규모에서 Dojo는 Tesla의 이전 NVIDIA 기반 클러스터 대비 매일 훨씬 더 많은 FSD 훈련 데이터를 처리할 수 있음; 더 높은 훈련 처리량 = 더 많은 모델 반복 = 더 빠른 이탈률 개선 | Dojo의 실제 배포 용량과 각 ExaPOD 활용률은 공식적으로 확인되지 않음; Tesla는 exaFLOP 목표를 제시했지만 규모에서의 정확한 운영 상태는(추정) |
| FLOP당 비용 vs NVIDIA | Tesla의 논거: Dojo는 비디오 처리 워크로드에서 NVIDIA H100 임대보다 FLOP당 비용이 낮음; D1의 비디오 FLOP당 비용이 H100보다 추정 30-50% 낮다면(추정), 10 exaFLOP 훈련에서 Dojo가 Tesla에게 추정 $1억-$10억을 절약시킴(추정) | Dojo의 비용 우위(실제라면)가 Tesla의 전체 수명 주기에 걸쳐 복리 누적: 실험당 낮은 훈련 비용 → 예산당 더 많은 반복 → 더 빠른 모델 개선 → 더 나은 FSD → 더 높은 부착률 → 더 많은 수익 | 비용 우위는 Tesla의 주장이며 독립적으로 검증되지 않았음; NVIDIA도 H100과 B200 경쟁으로 효과적인 클라우드 가격을 낮춤 |
| 훈련 데이터 플라이휠 | Tesla의 FSD 탑재 600만대 이상의 차량이 매주 추정 수천만 마일의 훈련 데이터를 생성(추정); 소비자 자동차 대수 없이는 경쟁자가 이 데이터 볼륨을 복제할 수 없음 | Waymo의 훈련 데이터는 1~2자릿수 더 작음(추정 3천만 마일 이상의 상업적 무인 주행 마일 vs 추정 60억 마일 이상의 Tesla 감독 마일(추정)) | Tesla의 데이터는 감독 데이터(인간 운전)이며 무인 주행 데이터가 아님; 모델이 인간의 운전 행동에서 학습하며, 이는 인간 운전 오류를 훈련 신호로 포함 |
| Dojo vs NVIDIA 임대(전략적 선택) | Tesla는 클라우드 NVIDIA GPU를 임대하는 대신 독자 훈련 인프라를 구축하기로 선택; 고자본·고위험·고잠재수익 전략; Dojo가 설계대로 작동하면 Tesla는 5~10년간 수십억 달러의 훈련 비용을 절약 | 구축 vs 임대 결정은 업계가 주목하고 있음: Dojo가 성공하면 다른 AV 기업이 따를 수 있음; Dojo가 NVIDIA 대비 부진하면 모든 경쟁자의 NVIDIA 임대 노선이 검증됨 | Tesla는 Dojo 투자 지속을 표명했음; NVIDIA 대비 근기 성과에 관계없이 전략은 포기되지 않음 |
4절 — Waymo, Google TPU와 경쟁사 훈련 인프라
Waymo의 컴퓨팅 우위는 AV 분야에서 가장 적게 논의되지만 잠재적으로 가장 지속적인 우위다. Alphabet의 자회사로서 Waymo는 Google의 TPU 인프라에 접근할 수 있다——세계에서 가장 성숙하고 비용 효율적인 AI 훈련 플랫폼 중 하나——그 조건은 공개되지 않았지만 공개 클라우드 시장 요율보다 유리할 것이 거의 확실하다. 이것은 Google을 인수하지 않고는 어떤 AV 스타트업도 복제할 수 없는 구조적 우위다.
| 컴퓨팅 접근 방식 | 사용자 | 훈련 능력 | Physical AI 관련성 |
|---|---|---|---|
| Google TPU v5e / v5p(Waymo) | Waymo(Alphabet 경유); Google의 내부 AI 프로젝트; 경쟁사에는 일반적으로 제공되지 않음 | TPU v5p: 추정 459 TFLOPS BF16/칩(추정); 대형 Google TPU 파드에 배포(수천 개의 칩) | Waymo의 Alphabet을 통한 TPU 접근은 공개 클라우드 GPU를 임대해야 하는 경쟁사 대비 구조적 우위; 비용은 사실상 Alphabet의 인프라 투자로 보조됨 |
| NVIDIA H100 / B200 클러스터(Aurora, Figure AI, Agility 등) | Aurora(AV 트럭); Figure AI(휴머노이드 로봇, OpenAI GPU 경유); Agility Robotics; Boston Dynamics; 독자 컴퓨팅이 없는 대부분의 AV 스타트업 | H100: 추정 3.35 exaFLOPS FP8(추정); B200: 추정 9 exaFLOPS FP8(추정); 업계 표준 훈련 플랫폼 | NVIDIA H100/B200을 임대하는 경쟁사는 시장 요율을 지불(추정 $2-3/시/H100(추정)); 대규모 훈련 실행에서 이는 상당한 운영 비용 |
| AMD MI300X(신흥) | 일부 데이터 센터 운영자; 비용 의식이 높은 AV 기업에서의 잠재적 사용 | MI300X: 192 GB HBM3(H100 80 GB의 2.4배); 추정 2.6 exaFLOPS FP8(추정) | AMD MI300X는 기술적으로 경쟁력이 있지만 CUDA 에코시스템 잠금이 Physical AI에서의 채택을 제한; 모든 주요 AV 훈련 코드베이스가 CUDA 최적화 |
| Tesla FSD 칩(차량 탑재 추론) | Tesla 차량(HW3, HW4); Tesla 실리콘 팀의 자체 설계 | HW3: 144 TOPS(차량당 2개의 칩); HW4: 추정 350+ TOPS(추정); Tesla FSD 신경망 추론에 최적화된 커스텀 아키텍처 | Tesla FSD 모델을 위해 특별히 설계된 차량 탑재 추론 칩: 저지연으로 8개의 카메라 피드를 실시간으로 신경망에 처리 |
| Waymo 독자 차량 탑재 실리콘(Gen 6) | Waymo Gen 5 및 Gen 6 차량 | Waymo는 모든 차량 탑재 컴퓨팅 세부 사항을 완전히 공개하지 않았음; Gen 5 재규어 I-PACE는 보고에 따르면 NVIDIA 하드웨어 사용; Gen 6 전용 차량은 아마도 Waymo 독자 실리콘 사용 | Waymo의 Gen 6 차량은 차량 탑재 컴퓨팅을 최적화하는 기회: 독자 실리콘이 비용 절감(NVIDIA DRIVE 라이선스 대비), 전력 소비 감소(EV 주행 거리에 중요), 하드웨어-소프트웨어 공동 설계 실현 |
| 시뮬레이션 인프라 | 모든 주요 Physical AI 기업 | NVIDIA Isaac Gym 및 Isaac Lab(Agility, Figure, Boston Dynamics 등); Waymo의 CarCraft 시뮬레이터; Tesla 독자 시뮬레이션 스택; Aurora의 TORCH 시뮬레이터 | 시뮬레이션은 Physical AI 훈련 데이터의 힘 배증기: GPU 가속 시뮬레이션이 물리적 데이터 수집보다 몇 배나 빠르게 합성 훈련 시나리오를 생성; Waymo의 CarCraft 시뮬레이터가 연간 수십억 개의 시뮬레이션 시나리오 생성 |
5절 — Physical AI 컴퓨팅 벤치마크 채점표
| 컴퓨팅 차원 | Waymo(Alphabet) | Tesla | Aurora | Figure AI | 2028년 전망 |
|---|---|---|---|---|---|
| 훈련 인프라 | Google TPU 파드(Alphabet 경유) + NVIDIA GPU; Alphabet 보조 인프라에서 오는 구조적 비용 우위 | Dojo(독자 D1 칩)가 exaFLOP 규모 목표; 구축 vs 임대 전략적 도박; Dojo가 설계대로 작동하면 Tesla가 비디오 처리 워크로드에서 최저 FLOP당 비용 | 임대 NVIDIA H100/B200 클러스터; 독자 훈련 인프라 없음; 훈련 비용이 중요한 운영 비용 | OpenAI 파트너십을 통한 NVIDIA GPU; OpenAI가 Figure-OpenAI 협업의 일부로 GPU 접근 제공 | Tesla의 Dojo 도박이 더 명확해짐; Dojo가 경쟁력 있는 비용으로 멀티 exaFLOP 규모에 도달하면 Tesla가 구조적 훈련 비용 우위 보유 |
| 차량 탑재 추론 | NVIDIA DRIVE 또는 Waymo 독자 실리콘(Gen 6 세부 사항 완전히 미공개(추정)) | Tesla FSD HW4 칩: 추정 350+ TOPS(추정); 자체 설계; 하드웨어-소프트웨어 공동 설계 우위 | Aurora Driver: NVIDIA 기반 컴퓨팅; Class 8 트럭 통합 설계; 기능 안전 준수를 위한 트럭당 추정 3+ 이중화 컴퓨팅 유닛(추정) | 해당 없음(휴머노이드 로봇, 차량 아님); Figure 02는 독자 컴퓨팅 사용; Agility Robotics Digit은 Jetson급 탑재 컴퓨팅 사용 | Tesla의 독자 실리콘 경로가 HW5로 지속될 가능성; Waymo Gen 6 독자 실리콘 배포로 NVIDIA 기반 Gen 5와의 차량 탑재 컴퓨팅 격차 축소 |
| 시뮬레이션 인프라 | CarCraft: Waymo 독자 시뮬레이터; 연간 수십억 개의 시뮬레이션 시나리오; AV 업계에서 가장 성숙한 시뮬레이션 스택 중 하나 | 독자 시뮬레이션 스택; Tesla는 실제 세계 데이터를 주요 훈련 신호로 사용하고 시뮬레이션을 보완으로 활용 | TORCH 시뮬레이터; GPU 가속; Aurora는 물리적 테스트 마일로 다루지 않은 엣지 케이스에 시뮬레이션 사용 | NVIDIA Isaac Lab + Figure 독자 로보틱스 시뮬레이션; 조작 및 이동 정책을 위한 물리 정확 휴머노이드 작업 시뮬레이션 | 물리적 데이터 수집만으로는 롱테일 엣지 케이스를 효율적으로 커버할 수 없어 시뮬레이션 품질이 점점 더 중요해짐 |
| 데이터 볼륨(훈련 데이터) | 추정 3천만 마일 이상의 상업적 무인 주행 마일(추정); 가장 높은 품질의 무인 주행 데이터; 하지만 3대 AV 플레이어 중 가장 작은 데이터 볼륨 | 추정 60억 마일 이상의 감독 마일(추정); AV에서 가장 큰 훈련 데이터셋; 600만대 이상의 차량 대수를 통한 데이터 플라이휠 | 2025년 4월 상업 출시 이후 추정 1천만 마일 이상의 고속도로 상업 마일(추정) | 로봇 작업 데이터: 초기 단계; NVIDIA Isaac 시뮬레이션이 물리적 데이터 격차를 메움; Figure AI가 실제 세계 로봇 작업 데이터 생성을 위해 BMW 공장에 배포 | Tesla의 데이터 볼륨 우위는 구조적이고 계속 성장; Waymo의 무인 주행 데이터 품질이 무인 주행 모델 훈련에 우수 |
| 컴퓨팅 종합 평가 | Physical AI 컴퓨팅 경쟁은 아직 결판나지 않았다. NVIDIA는 여전히 거의 모든 Physical AI 기업의 훈련 인프라의 주요 제공자다——이 위치가 막대한 수익을 창출하고 NVIDIA의 에코시스템 해자를 강화한다. Tesla의 Dojo 도박은 Physical AI에서 가장 야심찬 컴퓨팅 인프라 차별화이며, 신뢰할 수 있는 논거(비디오 훈련에 최적화된 독자 칩 + 최대 훈련 데이터셋 = 구조적 모델 개선 우위)를 가지고 있지만 Tesla가 목표로 하는 전체 규모에서는 아직 입증되지 않았다. Waymo의 Google TPU 접근은 AV 훈련 컴퓨팅에서 가장 눈에 띄지 않지만 가장 지속적인 구조적 우위다——Alphabet의 TPU 인프라는 세계에서 가장 성숙하고 비용 효율적인 것 중 하나이며, Waymo가 보조 요율로 그것에 접근할 수 있다는 것은 과소평가된 경쟁 해자다. Physical AI 컴퓨팅 경쟁을 추적하는 투자자가 주목해야 할 KPI는 원시 FLOP 수가 아니라——달러당 훈련 처리량과 그로 인한 모델 개선 속도(이탈률 하락과 지리적 확장 속도로 측정)다. |
참고: “(추정)“으로 표시된 수치는 2026년 중반 기준 공개 가능한 정보에 기반한 방향성 추정값입니다. 하드웨어 가격, 클러스터 규모 경제, 훈련 컴퓨팅 용량은 관련 기업에 의해 완전히 공개되지 않았습니다. 이 기사는 투자 조언을 구성하지 않습니다.
출처
- NVIDIA H100 및 B200 아키텍처 사양 — NVIDIA ↗
- Tesla Dojo AI 훈련 인프라 — Tesla AI ↗
- Google TPU v5 클라우드 가격 — Google Cloud ↗
- AMD MI300X 아키텍처 — AMD ↗