Skip to content
AI-Daily-Builder

2026-06-18 views

테슬라 Dojo 슈퍼컴퓨터 — 커스텀 AI 실리콘과 FSD 뒤에 숨은 연산 확장 논제

테슬라의 커스텀 Dojo D1 실리콘은 FSD와 Optimus 훈련의 연산 핵심 — 더 빠른 훈련 처리량이 더 나은 자율주행을 복리로 만든다는 베팅이다.

Physical AI 벤치마크 시리즈 111편 — 테슬라 Dojo 슈퍼컴퓨터 심층 분석: 커스텀 AI 훈련 실리콘, FSD 뒤에 숨은 연산 확장 논제, 그리고 훈련 처리량이 자율주행 개선 속도를 어떻게 결정하는가

훈련 연산은 자율주행 경쟁의 숨겨진 핵심 변수다. 모두가 개입률, 로보택시 출시, 안전 보고서——경쟁의 가시적 출력——를 주시한다. 그러나 그 출력들을 뒷받침하는 엔진은 훈련 연산이다: 기업이 얼마나 많은 데이터를 처리할 수 있는지, 얼마나 빨리 실험을 실행할 수 있는지, 그리고 실제로 차를 운전하는 신경망 정책을 얼마나 빨리 반복할 수 있는지. 테슬라의 Dojo 슈퍼컴퓨터는 이 변수가 너무 결정적이어서 NVIDIA에서 GPU 시간을 임대하거나 Google의 TPU를 사용하는 대신 처음부터 커스텀 실리콘을 구축할 가치가 있다는 회사의 베팅이다.

이는 AV 분야의 다른 모든 기업과는 다른 전략적 입장이다. Waymo는 범용 AI 워크로드용으로 설계된 칩인 Google TPU와 NVIDIA GPU 클러스터를 사용한다. 테슬라는 FSD 훈련 워크로드가 충분히 특수하고 훈련 연산 스택을 소유하는 경쟁 우위가 충분히 크기 때문에, 비용, 엔지니어링 복잡성, 다년간의 타임라인에 관계없이 비디오 훈련에 특화되어 최적화된 커스텀 실리콘을 구축할 가치가 있다고 결정했다.


1절 — 훈련 연산이 FSD에 중요한 이유

훈련 연산과 FSD 성능 사이의 연결은 표면적으로는 직관적이지 않다. FSD는 각 테슬라 차량 내의 칩——HW4 차량용 컴퓨터——에서 실행되며 그 칩이 차를 조종하는 모든 실시간 추론을 수행한다. Dojo는 차 안에 없다. Dojo는 데이터 센터에 있다. 그러나 Dojo가 하는 일——결국 HW4에 배포되는 신경망 가중치 훈련——이 모든 FSD 버전의 품질 상한을 결정한다.

원칙설명FSD에 대한 함의
스케일링 법칙신경망 성능은 더 많은 연산, 더 많은 데이터, 더 큰 모델로 예측 가능하게 향상된다 (Chinchilla 스케일링 법칙; OpenAI 스케일링 논문)FSD가 스케일링 법칙을 따른다면 더 많은 훈련 연산 = 더 나은 주행 정책 — LLM이 더 많은 연산으로 더 똑똑해지는 것과 같은 원리
비디오는 연산 집약적원시 카메라 비디오(테슬라 공개 스펙에 따른 1280x960 x 8대 카메라 x 36Hz) 훈련은 방대한 데이터 볼륨을 생성하며 비디오 토큰 처리 비용이 높다FSD v12+는 비디오로 엔드투엔드 훈련되며 모델 반복 훈련 한 번에 수십억 프레임 처리 필요
반복 속도더 빠른 훈련 연산 = 단위 시간당 더 많은 실험 = 더 빠른 개선 사이클10배 더 많은 실험을 실행할 수 있는 팀이 더 나은 모델 아키텍처를 더 빨리 찾는다
데이터 플라이휠 x 연산 플라이휠테슬라의 데이터 우위(600만+ 대의 차량)는 연산이 데이터 수집 속도를 따라잡을 수 있을 때만 복리 효과를 낸다충분한 연산 없이는 데이터 플라이휠이 느려지고 수집된 데이터는 처리되지 않은 채로 남는다
추론 vs 훈련Dojo는 훈련용(모델 가중치 찾기); 각 테슬라 차량은 실시간으로 모델을 실행하는 차량 탑재 HW4 칩을 사용한다두 가지 별개의 연산 문제: Dojo(대규모, 중앙집중식 훈련) vs HW4(효율적, 분산형 추론)

스케일링 법칙 논거가 Dojo 논제의 핵심이다. 이는 LLM 세계에서 경험적으로 확립되어 있다: GPT-4가 GPT-3보다 나은 것은 OpenAI가 근본적으로 다른 아키텍처를 찾았기 때문이 아니라 더 많은 연산으로 더 많은 데이터에서 더 큰 모델을 훈련했기 때문이다. 테슬라에게 문제는 같은 법칙이 자율주행에 적용되는지 여부——더 많은 비디오 데이터에 대한 더 많은 훈련 연산이 안정적으로 더 나은 주행 정책을 생성하는지——다.


2절 — Dojo D1 칩 아키텍처

Dojo D1 칩은 테슬라의 커스텀 실리콘 전략의 원자다. 테슬라는 2022년 AI Day에서 핵심 사양을 공개했다. 아키텍처를 이해하려면 테슬라가 무엇을 위해 최적화하고 있는지 이해해야 한다: 범용 AI 컴퓨팅이 아니라 특별히 비디오 훈련 워크로드다.

사양맥락
공정 노드TSMC 7nm일부 NVIDIA A100 생산 배치와 동일한 노드; 최신 노드는 아니지만 비용/밀도에 최적화
칩당 연산 능력~362 TFLOPS BF16 (공개됨)NVIDIA A100(312 TFLOPS BF16)에 필적; D1은 대역폭 효율성에 최적화
온칩 메모리50MB SRAM (공개됨)GPU 설계보다 훨씬 큰 SRAM; 비디오 훈련의 메모리 대역폭 병목 감소
메모리 대역폭훈련 타일 내 칩 간 인터커넥트 ~10 TB/s (공개됨)주요 차별화 요소: D1 칩은 타일 내에서 매우 높은 대역폭으로 상호 연결; NVLink 동급 병목 제거
타일 구조훈련 타일당 D1 칩 25개; ExaPOD당 훈련 타일 120개 (공개됨)ExaPOD: D1 칩 3,000개, ~1.1 ExaFLOP BF16 연산
ExaPOD 사양~1.1 ExaFLOP BF16 (공개된 목표)ExaPOD 1개 = ~1 ExaFLOP; 다수의 ExaPOD 생산 중 (추정)
핵심 설계 철학CPU-GPU 메모리 계층 병목 제거; D1은 칩이 매우 높은 대역폭으로 P2P 통신하는 통합 연산 패브릭기존 GPU 훈련은 CPU→GPU 데이터 전송과 NVLink 대역폭으로 병목; D1은 비디오 워크로드를 위해 이를 우회

50MB 온칩 SRAM 수치는 특별한 주목이 필요하다. 표준 GPU 아키텍처는 DRAM을 기본 메모리 풀로 사용한다——범용 AI 워크로드에는 충분히 빠르지만 인접 프레임을 함께 처리해야 하는 대규모 비디오 클립 훈련 시 근본적인 대역폭 상한이 있다. D1의 훨씬 더 큰 온칩 SRAM은 더 많은 데이터를 연산 유닛에 가깝게 유지하여 비용이 많이 드는 오프칩 메모리 액세스 빈도를 줄인다.

ExaPOD는 배포 가능한 단위다: 타일당 D1 칩 25개, ExaPOD당 타일 120개, 총 D1 칩 3,000개, ExaPOD당 약 1.1 ExaFLOP BF16 연산. 참고로 ExaFLOP은 초당 10^18회 부동소수점 연산이다——2022년까지는 국가 슈퍼컴퓨팅 시설의 영역이었다.


3절 — Dojo vs NVIDIA GPU 클러스터 비교

Dojo를 지지하는 근거는 D1이 절대적 지표에서 H100보다 우수하다는 것이 아니다. NVIDIA의 H100은 성숙한 소프트웨어 생태계와 광범위한 적용 가능성을 가진 뛰어난 실리콘이다. Dojo를 지지하는 근거는 수직 통합된 훈련 스택——칩, 소프트웨어, 훈련 파이프라인, 모두 하나의 워크로드에 최적화——을 소유하는 것이 FLOP당 연산 사양이 비슷하더라도 H100 임대로는 복제할 수 없는 전략적 우위를 낳는다는 것이다.

차원테슬라 Dojo (D1 / ExaPOD)NVIDIA H100/H200 클러스터
하드웨어 소유권커스텀 실리콘; 테슬라가 전체 스택 소유 (칩→소프트웨어→훈련 파이프라인)서드파티; GPU당 지불하거나 하드웨어 구매; NVIDIA가 로드맵 관리
비디오 훈련 효율성특별히 비디오에 최적화 (대형 SRAM, 고칩간 대역폭); FSD 워크로드에 우위 (추정)범용 목적; 트랜스포머 훈련에 우수; 비디오 훈련 가능하지만 특별히 최적화되지 않음
소프트웨어 스택테슬라 독점; CUDA 호환성 없음; 커스텀 ML 프레임워크 필요CUDA 생태계; PyTorch / JAX / TF 모두 최적화된 CUDA 백엔드 보유; 방대한 도구
자본 비용매우 높은 초기 비용 (커스텀 실리콘 팹, 패키징, 인프라 구축)임대 또는 구매; OpEx 친화적; H100 ~$30K-$40K/대 (추정)
유연성Dojo는 테슬라의 특정 워크로드에 최적화; 다른 용도로 전환하기 어려움H100 클러스터는 모든 워크로드 실행 가능; 재활용 가능
규모 상한테슬라 자체 건설 속도에 제한; ExaPOD 생산 속도NVIDIA는 현재 수요 수준에서 사실상 무제한 H100 공급 가능 (추정)
공급업체 리스크테슬라가 공급 관리; 공급업체 의존성 없음NVIDIA 가격 책정, 할당 우선순위, 수출 통제에 좌우됨
현재 용량여러 ExaPOD 운영 중; 정확한 용량 미공개; 테슬라는 Dojo가 생산 훈련에 사용 중이라고 밝힘 (추정)Waymo는 Google TPU (Alphabet 내부) + NVIDIA GPU 사용 (추정)

소프트웨어 스택 문제는 이 비교에서 가장 과소평가된 요소다. CUDA는 30년의 선발 우위가 있다. 모든 주요 ML 프레임워크는 전문가 팀이 유지 관리하는 최적화된 CUDA 백엔드를 보유한다. 테슬라가 CUDA 호환성이 없는 커스텀 실리콘을 구축하기로 한 결정은 병렬 소프트웨어 스택 구축 및 유지, CUDA 생태계 외부에서 작업하려는 엔지니어 채용, PyTorch 커뮤니티에서 상속받는 대신 모든 훈련 최적화를 처음부터 구현하는 것을 의미한다. 이는 칩 사양에는 나타나지 않는 막대한 소프트웨어 비용이다.


4절 — HW4: 엣지에서의 추론

Dojo가 모델을 훈련한다. HW4가 모델을 실행한다. 두 연산 문제는 배포 파이프라인으로 분리된다: 훈련이 모델 가중치를 생성하고, 가중치가 압축되어 추론용으로 최적화되며, 결과 모델이 OTA 업데이트를 통해 차량에 전송된다. HW4가 차가 주행 중일 때 실시간으로 모델을 실행한다.

사양HW4 (테슬라의 현재 차량 탑재 칩)HW3 (전 세대)
TOPS (초당 조 단위 연산)~720 TOPS (공개됨)144 TOPS
개선 배율HW3 대비 ~5배
공정 노드TSMC 4nm (추정)삼성 14nm
지원 카메라최대 8대 풀 해상도 카메라8대 카메라 (동일)
네트워크 대역폭이더넷 기반 센서 네트워크 (구형 설계의 CAN 버스 대비)CAN 버스
FSD 버전HW4는 FSD v12+ 엔드투엔드에 필요 (추정); HW3은 구형 FSD 버전 실행FSD v11까지 실행 (추정)
HW4 차량군 보급률2023년경 이후의 모든 새 테슬라 차량에는 HW4 탑재; HW3 차량군 여전히 많음 (추정)HW3 차량은 업그레이드 과제 — 전체 FSD v12+ 혜택을 위해 하드웨어 개조 필요
비용별도 미공개; 차량 제조 비용의 일부

HW3에서 HW4로의 전환은 테슬라에만 국한되지 않는 AV 산업의 구조적 과제를 드러낸다: 차량 탑재 추론 하드웨어가 차량이 실행할 수 있는 FSD 버전을 결정한다. HW3 차량은 모델이 HW3이 실시간 프레임 레이트로 실행할 수 있는 크기를 초과하기 때문에 FSD v12+를 전체 기능으로 실행할 수 없다 (추정). 이는 전체 HW3 차량군——2023년경 이전에 판매된 모든 테슬라——이 Dojo 기반 훈련 개선이 얼마나 되든 상관없이 더 오래된, 덜 유능한 FSD 버전을 실행하고 있음을 의미한다.


5절 — 벤치마크 신호로서의 Dojo

Physical AI 벤치마크 시리즈에서 Dojo는 단순한 칩이 아니다——테슬라의 연산 확장 논제가 작동하고 있는지 드러내는 관찰 가능한 신호 세트다.

신호관찰 대상중요한 이유
ExaPOD 수FSD를 훈련하는 ExaPOD가 몇 개 운영 중인지이용 가능한 훈련 연산의 직접적 대리 지표; 더 많은 ExaPOD = 더 빠른 모델 반복
훈련 실행 빈도테슬라가 얼마나 자주 새 FSD 버전을 출시하는지FSD 업데이트 케이던스(주간/월간/분기)는 훈련 처리량을 반영
개입률 추세1,000마일당 중요 개입률의 시간적 추이Dojo 스케일링 법칙 논제가 맞다면 연산이 확장됨에 따라 개입률이 계속 하락해야 함
Dojo 대 클라우드 비용Dojo가 NVIDIA H100 임대보다 더 나은 FLOP당 비용을 제공하는지Dojo가 규모에서 클라우드보다 비싸다면 커스텀 실리콘 베팅은 경제적으로 실패
HW4 차량군 보급률테슬라 FSD 차량군에서 HW4 비율HW4 차량이 가장 강력한 FSD를 받음; HW3 차량은 추론 단계에서 연산 제약
Optimus 훈련 통합Dojo가 Optimus 정책(범용 로봇)도 훈련하는지Dojo가 FSD와 Optimus 모두 훈련한다면 연산 할당이 전략적 변수가 됨

가장 실행 가능한 신호는 FSD 업데이트 케이던스다. Dojo가 테슬라가 주장하는 규모로 훈련 처리량을 생성하고 있다면 FSD 모델 업데이트 빈도는 측정 가능해야 한다. 주간 업데이트는 기능하는 훈련 파이프라인과 높은 처리량을 나타낸다. 분기별 업데이트는 훈련 파이프라인이 병목이거나 배포 사이클이 연산 외의 무언가에 의해 제한된다는 것을 시사한다.


6절 — 전략적 맥락: Dojo가 AV 경쟁 환경에 의미하는 것

Dojo 투자는 고립적으로 평가할 수 없다. 이는 테슬라가 경쟁자에 비해 AV 경쟁을 어떻게 생각하는지를 드러내는 전략적 선택이다——그리고 그 사고는 Physical AI 분야의 모든 기업에 함의를 지닌다.

근본적인 베팅은 자율주행이 데이터 수집 문제, 센서 문제, 또는 매핑 문제보다 훈련 연산 문제라는 것이다. Waymo는 뛰어난 지도, 뛰어난 센서 융합, Google의 연산 자원 접근성을 보유한다. 그러나 Waymo의 훈련 루프는 더 느리다. 왜냐하면 데이터 수집 규모(수백 대의 차량 대 수백만 대)가 근본적으로 더 작기 때문이다. 훈련 연산과 데이터 볼륨이 FSD 품질의 주요 결정 요소라면 Waymo의 센서 우위는 격차를 메우기에 불충분하다.

테슬라의 대안 가설——카메라만의 감지도 충분한 데이터로 충분한 연산으로 훈련하면 AV에 사용할 수 있다——은 이 믿음의 아키텍처적 표현이다. 카메라만의 연산 확장 훈련이 더 적은 데이터로 훈련된 라이다 보조 시스템을 능가하는 주행 정책을 생성한다면 Dojo 투자는 검증된다.


7절 — 2026년 및 그 이후에 주목할 사항

Dojo가 그 논제를 이행하는지 드러낼 관찰 가능한 신호가 지금 쌓이고 있다. Physical AI 벤치마크 시리즈는 이 신호들이 발전함에 따라 추적할 것이다.

신호시기드러나는 내용
ExaPOD 수 공개분기 실적 맥락 (Tesla IR)테슬라가 논제에 필요한 속도로 Dojo 용량을 확장하는지
FSD v12+ 월간 출시 비율지속적훈련 처리량 대리 지표; 더 잦은 출시 = 단위 시간당 더 많은 Dojo 훈련 사이클
HW4 차량군 비율차량 인도 보고서 (분기)FSD 구독자 중 몇 %가 최신 엔드투엔드 모델을 실제로 실행할 수 있는지
개입률 궤적CA DMV 연간 보고서 (연말 추정) + 테슬라 자발적 데이터스케일링 논제를 최종 검증하거나 반박하는 지연 지표
Dojo ExaFLOP 용량테슬라 AI/제품 이벤트 (추정)총 Dojo 훈련 용량; Alphabet과 Waymo 연산 공개와 비교
Optimus 정책 훈련 확인테슬라 이벤트; 실적 발표Dojo 연산이 FSD와 Optimus 사이에서 분할되는지, 그리고 어떻게 분할되는지
NVIDIA 노출 감소테슬라 설비투자 공개Dojo가 NVIDIA GPU 임대를 실제로 대체하는지 아니면 단순 보완하는지

Dojo 실험은 실제 차량으로 실제 교통에서 규모 있게 실행되고 있으며 관찰 가능한 출력을 생성한다. 이는 자율주행 역사에서 가장 많은 정보를 제공하는 실험 중 하나다.

참고: 「(추정)」으로 표시된 수치는 2026년 중반 공개 가능한 정보를 기반으로 한 방향성 추정치다. 테슬라는 Dojo 용량, ExaPOD 수 및 훈련 연산 세부 사항을 완전히 공개하지 않았다. 이 기사는 투자 조언을 구성하지 않는다.


출처

태그

커피