2026-06-18 — views

Tesla Dojo vs. 클라우드 컴퓨팅 — FSD와 Optimus 훈련을 뒷받침하는 자체 구축 대 외부 구매 결정

Tesla Dojo 클러스터와 H100/B200 클라우드 렌털 비교: 아키텍처, 경제성, FSD·Optimus 전략적 시사점 분석.

피지컬 AI 벤치마크 시리즈 제34편 — AI 훈련 인프라 분석

Tesla는 세계에서 가장 야심찬 맞춤형 AI 훈련 클러스터 중 하나를 구축하고 있습니다. Dojo는 Tesla가 전용으로 설계한 슈퍼컴퓨터로, 규모에 맞게 컴퓨팅 인프라를 소유하는 것이 Amazon, Google, Microsoft에서 임대하는 것보다 더 저렴하고 빠르며 전략적으로 방어 가능하다는 근본적인 베팅을 대표합니다. 본 글에서는 Dojo가 무엇인지, 주요 클라우드 제공업체에서 NVIDIA H100 또는 B200 클러스터를 임대하는 것과 어떻게 비교되는지, 자체 구축 대 외부 구매 경제성, 그리고 Dojo가 FSD와 Optimus 모두를 위한 Tesla의 장기 AI 훈련 비용 구조에 무엇을 의미하는지 상세히 검토합니다.

섹션 1 — Dojo 아키텍처 개요

Dojo는 Tesla가 처음부터 설계한 훈련 시스템으로, 기존 벤더 아키텍처의 파생물이 아닙니다. 구성 단위는 칩 레벨에서 시작하여 훈련 타일, ExaPOD, 최종적으로 다중 ExaPOD 클러스터로 확장됩니다.

구성요소	사양
맞춤형 칩	D1(Dojo 1) — TSMC 7nm 공정, BF16 성능 50 TFLOPS, 칩당 약 10 kW, 메모리 대역폭 900 GB/s
훈련 타일	타일당 D1 칩 25개, 타일당 약 2 PFLOPS
ExaPOD	ExaPOD당 훈련 타일 120개, 총 약 100 PFLOPS, 캐비닛 1개에 수용
목표 클러스터 규모	다중 ExaPOD, Tesla는 2025/2026년 말까지 약 1 EFLOP(엑사FLOP) 훈련 용량 목표(추정)
인터커넥트	맞춤형 고대역폭 D1 대 D1 직접 링크 — 기존 GPU 클러스터의 PCIe 대역폭 병목 회피
주요 용도	엔드-투-엔드 FSD 신경망 훈련, Optimus 로봇 정책 훈련. 추론에는 미사용(추론은 차량 FSD 하드웨어에서 실행)
하이브리드 접근법	Tesla는 버스트 훈련 워크로드를 위해 클라우드 제공업체에서 NVIDIA A100/H100 클러스터도 임대

인터커넥트가 중요한 이유: 표준 GPU 클러스터는 PCIe 또는 NVLink를 통해 칩 간 통신을 하여 훈련 작업의 병렬화 정도를 제한하는 대역폭 병목이 발생합니다. Dojo의 D1 대 D1 링크는 Tesla의 훈련 워크로드의 특정 통신 패턴——주로 FSD 인식 모델을 위한 대규모 비디오 데이터 배치——을 위해 설계되었습니다.

섹션 2 — 자체 구축 대 외부 구매 경제성

지표	Tesla Dojo(자체 구축)	클라우드 NVIDIA H100(외부 구매)	비고
ExaPOD당 자본 비용(추정)	3억~5억 달러 이상(추정)	초기 비용 없음	Dojo는 대규모 자본 투자 필요
PFLOP-일당 운영 비용(추정)	0.05~0.15달러(추정, 규모화 시)	0.50~2.00달러(클라우드 온디맨드/스팟, 추정)	Dojo 비용 우위는 높은 가동률에서만 실현
손익분기점 가동률(추정)	60~80%(추정)	해당 없음	이 임계값 이하에서는 클라우드가 단위 컴퓨팅당 더 저렴
유연성	낮음 — 고정 아키텍처, 세대 중간 업그레이드 어려움	높음 — 최신 NVIDIA 실리콘(B200/Blackwell)을 며칠 내 임대 가능
신규 하드웨어 접근 속도	칩 세대당 3~5년	며칠 — 클라우드는 새 NVIDIA 실리콘 출시 후 즉시 제공
데이터 보안	높음 — Tesla 훈련 데이터가 Tesla 관리 인프라를 벗어나지 않음	중간 — 클라우드 제공업체는 계약상 보호 제공, 데이터는 공유 인프라 통과
벤더 리스크	Tesla 통제 — 훈련 용량이 NVIDIA 가격이나 공급에 의존하지 않음	NVIDIA 가격 결정력과 하드웨어 공급 주기에 노출
손익분기점(추정)	4~6년의 집중 사용(추정)	해당 없음 — 종량제, 고정 회수 기간 없음

경제성 해석: 핵심 변수는 가동률입니다. 4년 이상 80% 이상 가동률을 지속 유지하면 Dojo의 PFLOP당 비용은 클라우드 요금보다 훨씬 낮아집니다. 40% 이하의 가동률에서는 단위 컴퓨팅당 분할 자본 비용이 Tesla가 H100 클러스터를 온디맨드로 임대하는 비용을 초과할 가능성이 높습니다.

섹션 3 — Dojo를 지지하는 전략적 논거

1. 데이터 보안과 지적재산권 보호

Tesla의 FSD 훈련 데이터——전 세계 Tesla 차량에서 수집한 수십억 마일의 라벨링된 주행 영상——는 기술 섹터에서 가장 경쟁상 민감한 독점 데이터셋 중 하나입니다. 이 데이터를 클라우드 제공업체를 통해 라우팅하면 계약상 NDA 하에서도 지적재산권과 경쟁 정보 리스크가 발생합니다. 자체 인프라에서 완전히 훈련하면 이 위험면을 제거합니다.

2. 맞춤형 실리콘 최적화

NVIDIA GPU는 광범위한 워크로드에 걸쳐 범용 가속기로 설계되었습니다. Dojo의 D1 칩은 Tesla의 훈련 워크로드 프로파일——고처리량 비디오 데이터 수집, 카메라 입력의 엔드-투-엔드 신경망 훈련, 대규모 데이터 병렬 훈련 작업——에 특화되어 설계되었습니다. 특정 워크로드 유형에 최적화된 맞춤형 실리콘은 해당 워크로드에서 범용 가속기 대비 약 2~5배 우수한 와트당 성능을 달성할 수 있습니다(추정).

3. 벤더 독립성과 공급 안보

20232024년 NVIDIA H100 부족은 중요 AI 인프라를 단일 벤더 공급망에 의존하는 리스크를 입증했습니다. 부족 기간 동안 H100 인스턴스의 클라우드 스팟 가격은 부족 전 기준 대비 35배(추정) 급등했습니다. Dojo는 NVIDIA의 공급 할당 결정이 아닌 Tesla 자체 생산 용량에 따라 확장되는 보장된 컴퓨팅 용량을 제공합니다.

4. Optimus 데이터 플라이휠 고착화

Optimus가 프로토타입에서 대량 생산으로 확장됨에 따라 전혀 새로운 범주의 훈련 데이터——인간형 로봇 상호작용 데이터, 조작 작업 시연, 정책 피드백 신호——가 생성됩니다. 컴퓨팅 레이어를 소유한다는 것은 Optimus 훈련 비용이 외부 벤더의 가격 구조가 아닌 Tesla 자체 실리콘 경제성의 함수가 된다는 것을 의미합니다.

섹션 4 — Dojo에 대한 반론(베어 케이스)

1. 자본 지출의 기회 비용

Dojo 자본 지출에 투입되는 모든 달러(ExaPOD당 3억5억 달러 이상, 추정)는 클라우드가 자본 지출을 운영 비용으로 전환하고 클라우드 제공업체가 Tesla가 비교 가능한 규모에서 맞출 수 없는 규모의 경제를 달성하기 때문에, 단기적으로 510배 더 많은 NVIDIA H100 또는 B200 컴퓨팅에 접근하는 대안 자금으로 사용될 수 있습니다.

2. 아키텍처 노후화

Dojo D1은 TSMC의 7nm 노드에서 제조됩니다. NVIDIA의 Blackwell B200은 TSMC의 4nm 이상 노드에서 제조되며, 관련 벤치마크에서 H100 대비 약 5배 성능 향상을 달성합니다. 맞춤형 가속기의 칩 설계 사이클은 테이프아웃부터 양산 배포까지 일반적으로 3~5년이 걸립니다. Dojo D2 또는 차세대 맞춤형 칩이 양산에 들어갈 무렵에는 NVIDIA가 이미 두 세대 이상을 더 출하했을 수 있습니다.

3. 소프트웨어 생태계 미성숙

NVIDIA의 CUDA 생태계는 15년 이상의 라이브러리 개발, 서드파티 프레임워크 지원, 엔지니어링 인재 깊이를 보유합니다. Dojo는 Tesla 맞춤형 소프트웨어 스택——독점 컴파일러, 맞춤형 라이브러리, 전용 훈련 프레임워크——을 필요로 합니다. 이는 채용 불리, 도구 불리, 디버깅 불리를 초래합니다.

4. 가동률 리스크

Dojo의 경제적 케이스는 다년간 회수 기간에 걸친 지속적인 높은 가동률에 의존합니다. FSD 훈련 수요가 정점에 달하거나 Optimus 양산 램프업이 예상보다 느리면 가동률이 손익분기점 임계값 아래로 압축될 수 있습니다. 클라우드 컴퓨팅은 필요하지 않을 때 거의 0으로 우아하게 축소되지만 Dojo는 그렇지 않습니다.

섹션 5 — FSD와 Optimus 타임라인에 대한 Dojo의 시사점

마일스톤	Dojo 기여(추정)	Dojo 없음(클라우드만)
FSD v14에서 v15로 일반화 도약	클라우드 비용 제약 없이 전체 데이터셋에서 지속적 재훈련 가능(추정)	기술적으로 가능하지만 동등한 훈련 규모에서 2~3배 더 비싼 것으로 추정(추정)
Optimus 작업 일반화(10에서 50개 작업)	Dojo 용량이 Optimus 배포가 생성하는 데이터 규모의 대규모 인간형 정책 훈련 지원	필요한 훈련 규모에서 클라우드 H100 가용성과 시간당 비용으로 병목
Optimus 5만 대 훈련 지원	지속적인 훈련 용량으로 약 5~10개 ExaPOD 필요(추정)	동등한 컴퓨팅에서 클라우드 연간 비용 5억 달러 이상으로 추정(추정)
외부 컴퓨팅 제품으로서의 Dojo	가동률이 허용되면 2027~2028년이 잠재적 윈도우(추정)	해당 없음

FSD 해석: Dojo가 FSD에 미치는 가장 구체적인 단기 이점은 훈련 데이터 활용의 비용 상한을 제거하는 것입니다. 자본 지출이 완전히 상각된 Dojo 규모에서 추가 훈련 컴퓨팅의 한계 비용은 거의 0에 가까워져 더 빈번한 모델 반복과 가용 라벨링 데이터의 더 광범위한 활용이 가능할 수 있습니다.

Optimus 해석: Optimus가 연간 5만~10만 대 규모로 대량 생산을 달성하면 각 로봇은 정책 업데이트에 통합해야 하는 상호작용 데이터를 지속적으로 생성합니다. 그 규모에서 클라우드 경제성은 진정으로 억제적이 되며, Dojo의 고정 비용 구조가 Tesla의 양산 야망이 시사하는 속도로 Optimus 데이터 플라이휠을 유지하는 유일한 실행 가능한 경로가 됩니다.

섹션 6 — 이 시리즈에 대해

본 글은 피지컬 AI 벤치마크 시리즈의 제34편입니다. 본 글은 AI 훈련 인프라 차원을 추가합니다: Tesla의 컴퓨팅 전략 핵심에 있는 자체 구축 대 외부 구매 결정, Dojo와 클라우드 NVIDIA 클러스터의 아키텍처와 경제성 비교, 향후 3~5년간 FSD와 Optimus 훈련 용량에 대한 시사점.

참고 사항: 본 글의 모든 비용 추정치, 성능 수치, 타임라인 예측은 공개 정보, 애널리스트 논평, 기술 발표에 기반한 추정치입니다. 투자 권고가 아닙니다. 투자 결정을 내리기 전에 자체적인 실사를 수행하고 공인 재무 어드바이저와 상담하시기 바랍니다.