2026-06-17 — views
피지컬 AI의 연산 기반 — 로봇 양산을 구동하는 실리콘 전체 분석 (2026년 중반)
자율주행차와 인형 로봇을 구동하는 추론·학습 칩 벤치마크 — Jetson Thor, HW4, Dojo, EyeQ Ultra 등 2026년 중반 최신 데이터.
연산 레이어는 피지컬 AI 일정을 조용히 제약한다
로봇 양산에는 실리콘 하한선이 있다. 자율주행차는 엄격한 전력 예산 내에서 레이더·라이다·카메라 데이터를 실시간으로 융합하는 차량 탑재 추론 칩이 필요하다. 인형 로봇은 70킬로그램 이하의 섀시에서 배터리로 기반 모델을 구동하는 엣지 프로세서가 필요하다. 이러한 모델을 학습시키려면 테라바이트 규모의 로봇 시연 데이터를 처리할 수 있는 대규모 클라우드 또는 프라이빗 컴퓨팅 클러스터가 필요하다.
Waymo, Tesla, Figure AI 또는 다른 피지컬 AI 기업의 모든 일정 예측은 근본적으로 이용 가능한 실리콘에 대한 예측이다. 이 기사는 이 분야를 구동하는 칩을 벤치마크한다 — 차량과 로봇에 배포된 추론 하드웨어와 모델 학습에 필요한 연산 자원 모두를 다룬다.
TOPS 정의 참고사항: Tera-Operations Per Second(TOPS)는 추론 워크로드에 대해 INT8 정밀도로 측정된다. 학습 칩은 다른 지표(BF16 또는 FP16의 TFLOPS)를 사용한다. 두 지표는 직접 비교할 수 없다 — 학습과 추론은 서로 다른 워크로드이기 때문이다. 아래 표에서는 이를 구분하여 제시한다.
1절 — 실리콘 벤치마크 종합표
아래 표는 2026년 중반 기준 피지컬 AI와 관련된 주요 추론 칩을 다룬다. 모든 TOPS 수치는 INT8 기준(별도 표기가 없는 한). 전력 수치는 일반적인 동작 전력(별도 표기가 없는 한 피크 TDP가 아님). ‘상업 상태’는 일반 상업적 가용성을 나타내며, 일부 칩은 여전히 할당제 또는 단계적 출시 중이다.
| 칩 | 제조사 | TOPS (INT8) | 전력 (W) | 메모리 / 대역폭 | 주요 용도 | 상업 상태 |
|---|---|---|---|---|---|---|
| Jetson Orin NX | NVIDIA | 100 | 10–25 | 16 GB LPDDR5, 102 GB/s | 엣지 로보틱스, 드론, 산업용 | 일반 출시 |
| Jetson Thor | NVIDIA | 800 | ~60 | 128 GB/s (추정) | 차세대 인형 로봇, 고급 로보틱스 | 단계적 / 할당 중 |
| HW4 (FSD 컴퓨터) | Tesla | 1,000+ (Tesla 발표) | ~50–80 (각 칩) | 맞춤형 LPDDR5 | Tesla 차량 자율주행 추론 | 양산 중 (Model S/X/3/Y/Cybertruck/Cybercab) |
| HW4 듀얼 칩 | Tesla | 2,000+ (Tesla 발표) | ~100–160 (합산) | HW4 2개 병렬 | 고중복성 Tesla 모델 | 양산 중 |
| Dojo D1 타일 | Tesla | 해당 없음 — 학습 칩 | ~350 (각 타일) | 각 타일 900 GB/s | 신경망 학습 (추론 아님) | 학습 클러스터 전용 |
| Snapdragon Ride Elite | Qualcomm | 700+ | 미공개 | 자동차 등급 ECC LPDDR5 | ADAS, L2+/L3 자율주행 | 양산 중 (OEM 출시 중) |
| EyeQ Ultra | Mobileye | 176 | ~10 | 통합형 LPDDR5 | L4 자율주행 추론 | 2025년부터 출시 |
| TPU v5e | 해당 없음 — 학습 칩 | ~170 (각 칩) | HBM2e, 각 Pod 1.6 TB/s | 클라우드 모델 학습 (Waymo 신경망 등) | Google Cloud 전용 (단독 판매 아님) |
표 읽는 법: TOPS 수치는 각 제조사의 측정 방법에 따라 크게 다를 수 있다 — Tesla의 1,000+ 주장은 Tesla 내부 벤치마크 방법을 사용하므로 NVIDIA가 공개한 INT8 수치와 직접 비교할 수 없을 수 있다. 제조사 간 TOPS 비교는 방향성 참고치로 사용하고 정확한 수치로 다루지 않아야 한다. 전력 효율(TOPS/W)은 모바일 및 차량 응용에서 더 의미 있는 지표인 경우가 많다: HW4는 약 12–20 TOPS/W(추정), EyeQ Ultra는 약 17 TOPS/W, Jetson Orin NX는 동작 포인트에 따라 약 4–10 TOPS/W이다.
Tesla Dojo D1: 각 D1 타일은 BF16 정밀도에서 362 TFLOPS를 제공한다. Tesla의 ExaPOD 구성 — 3,000개의 D1 타일과 스위칭 패브릭 — 은 총 학습 연산력 100 exaFLOPS를 목표로 한다. 이것은 학습 시스템이지 추론 칩이 아니다. 차량에 배포되지 않는다.
2절 — 누가 무엇을 사용하는가: 기업 레벨 연산 스택
차량이나 로봇의 추론 칩은 전체 그림의 절반에 불과하다. 학습 연산 — 모델을 구축하는 데 사용되는 클라우드 또는 프라이빗 클러스터 — 도 마찬가지로 중요하다. 아래 표는 주요 피지컬 AI 기업을 두 레이어 모두에 매핑한다.
| 기업 | 차량 탑재 추론 칩 | 학습 연산 | 비고 |
|---|---|---|---|
| Waymo | 맞춤형 ASIC (Waymo Driver 칩, 5세대) | Google Cloud TPU v4/v5 클러스터 | 차량 탑재 칩 세부 사항 제한적; Google Cloud 관계가 학습 규모 제공 |
| Tesla | HW4 (단일 또는 듀얼) | Dojo + NVIDIA H100 클러스터 (전환 중) | 적극적 수직 통합 — 학습을 Dojo로 이전 중; HW4는 자체 설계 |
| Figure AI | NVIDIA Jetson Thor | NVIDIA DGX / H100 클러스터 | 기반 모델은 차량 외부에서 학습; Thor가 차량 탑재 추론 담당 |
| Agility Robotics (Digit) | Intel / NVIDIA 엣지 컴퓨팅 (혼합) | AWS 클라우드 컴퓨팅 | Amazon 모회사가 AWS 인프라 제공; 차량 탑재 칩 세부 사항 제한적 |
| 1X Technologies | NVIDIA Jetson Thor 플랫폼 | NVIDIA DGX 기반 | OpenAI 파트너십이 모델 학습 스택에 영향 |
| Boston Dynamics (Atlas) | 맞춤형 액추에이터 컴퓨팅 + NVIDIA Isaac 플랫폼 | NVIDIA Isaac Sim / 클라우드 학습 | Isaac 플랫폼을 시뮬레이션-실물 전환에 사용 |
| Apptronik (Apollo) | NVIDIA 기반 엣지 컴퓨팅 | AWS / NVIDIA (추정) | Google/Samsung 투자; 학습 스택 미공개 |
이 표가 보여주는 것: Tesla와 Waymo는 추론과 학습 양단에서 수직 통합을 이루거나 깊이 연계되어 있다. 인형 로봇 스타트업 군 — Figure, 1X, Apptronik — 은 추론에서 NVIDIA Jetson Thor에, 학습에서 NVIDIA DGX 인프라에 집중되어 있다. 이것이 5절에서 논의하는 단일 공급업체 의존 리스크를 만든다.
3절 — Tesla의 수직 통합 우위
Tesla는 연산 레이어에서 다른 모든 피지컬 AI 기업과 구조적으로 다른 위치를 차지한다. 차량에 배포되는 추론 칩(HW4)과 모델 구축에 사용되는 학습 실리콘(Dojo D1) 모두를 자체 설계한다. 이 스택의 양단을 동시에 제어하는 다른 피지컬 AI 기업은 없다.
수직 통합이 Tesla에게 가져다주는 것
NVIDIA 수출 규제의 영향을 받지 않는 학습 파이프라인. Dojo D1 타일은 미국의 툴체인과 공급망으로 설계·제조된다. 미국 정부가 특정 시장에 대한 NVIDIA H100·A100 칩 수출을 제한할 때, Dojo 기반 Tesla의 학습 파이프라인은 영향을 받지 않는다. 수출 규제가 진화함에 따라 이것은 시간이 지남에 따라 복리로 성장하는 전략적 비대칭성이다.
차량 규모에서의 TOPS당 비용. HW4는 Tesla의 차량 생산 라인의 일부로 제조·통합된다. 추론 연산 비용은 차량 하드웨어 마진에 분산된다. Mobileye EyeQ Ultra나 Qualcomm Snapdragon Ride Elite를 서드파티 부품으로 구매하면 공급업체 마진 레이어가 추가되고 조달 의존성이 생긴다. Tesla는 자체 설계와 통합으로 두 가지 모두를 제거한다.
학습 연산: Dojo vs. NVIDIA H100 클러스터 비교. Tesla의 ExaPOD는 3,000개의 D1 타일에서 100 exaFLOPS의 BF16 학습 연산력을 목표로 한다. 동등한 100 exaFLOPS의 NVIDIA H100 클러스터에는 약 3,100개의 H100 GPU(각 SXM5 피크에서 약 32 TFLOPS BF16 제공)가 필요하다. 데이터센터 가격(추정)으로 그 규모의 H100 클러스터는 수억 달러의 하드웨어에 전력 및 냉각 인프라를 더한 비용을 의미한다. Tesla의 Dojo는 더 낮은 총 소유 비용으로 동등한 규모를 제공하도록 설계되었다 — 하지만 이 비용 주장에 대한 외부 검증은 2026년 중반 기준으로 공개되지 않았다.
절충점: 수직 통합에는 엔지니어링 위험이 따른다. Dojo 개발은 처음 공개된 일정보다 더 오래 걸렸고, Tesla는 전환 기간 동안 계속 NVIDIA H100 클러스터를 학습에 사용하고 있다. Dojo를 주요 학습 기반으로 완전 이전하는 것은 2026년 중반 기준으로 완료된 전환이 아니라 명시된 목표다.
4절 — Waymo의 연산 스택
Waymo의 접근 방식은 한 가지 중요한 측면에서 Tesla와 반대다: 자체 칩을 설계하지 않지만 모회사 Alphabet/Google을 통해 업계 최강의 학습 인프라에 깊이 통합되어 있다.
차량 탑재 추론: Waymo Driver 칩
Waymo는 차량 탑재 추론을 위한 맞춤형 ASIC — 5세대 Waymo Driver 칩을 개발했다. 이 칩의 상세 사양은 공개되지 않았으며, 이는 Waymo가 기술적 차별화를 보호하는 관행과 일치한다. Waymo의 공개 통신에서 알 수 있는 것은:
- Waymo One 센서 스위트 전체의 실시간 센서 융합 처리: 카메라, 라이다, 레이다
- 완전 무인 운행을 가능하게 하는 인식·예측·계획 스택을 차량에서 실행
- 각 세대의 칩은 이전 세대보다 전력 효율과 처리 처리량이 향상됨
Waymo는 추론 칩을 판매하거나 라이선스하지 않는다. Waymo One 차량 전용으로 제조되며 범용 자동차 칩이 아니다.
학습: Google Cloud TPU의 규모 우위
Waymo는 Google Cloud TPU v4·v5 인프라에서 신경망을 학습시킨다. Google Cloud의 TPU Pod 구성은 exaFLOP 규모 연산력에 도달한다. 이를 통해 Waymo는 시장 가격이 아닌 Google 모회사 관계를 반영한 비용 구조로, 어느 인형 로봇 스타트업도 NVIDIA 클라우드 인스턴스를 통해 조달할 수 있는 것과 동등하거나 그 이상의 학습 연산력을 확보할 수 있다.
구조적 함의: Waymo의 학습 규모 우위는 스타트업이 추가 자금 조달 라운드를 통해 복제할 수 있는 것이 아니다. Google TPU 인프라에 대한 원가 기준 접근은 구조적 해자다. Waymo의 제약은 연산력이 아니다 — 데이터 다양성(더 많은 도시, 조건, 엣지 케이스에서의 주행 거리)과 차량 제조 규모다.
5절 — 인형 로봇 스타트업에 대한 NVIDIA 병목현상
인형 로봇 스타트업이 단일 추론 플랫폼 — NVIDIA Jetson Thor — 에 집중하는 것은 인형 로봇 양산 논의에서 널리 다루어지지 않는 공급 집중 리스크를 만들어낸다.
Thor가 왜 기본 선택이 되었는가
Jetson Thor는 상업적으로 이용 가능한 인형 로봇 규모의 엣지 컴퓨팅 모듈 중 가장 높은 TOPS/W 비율을 제공한다. 800 TOPS와 약 60W로 외부 컴퓨팅 연결 없이 대형 비전-언어-액션 모델의 차량 탑재 추론을 가능하게 한다. NVIDIA의 Isaac 로보틱스 플랫폼 — 시뮬레이션, 학습 파이프라인, 배포 도구 — 은 Jetson 하드웨어와 기본적으로 통합된다. 자체 실리콘 팀을 구축하지 않고 빠르게 나아가고 싶은 스타트업에게 Thor와 Isaac의 조합은 합리적인 선택이다.
할당 문제
NVIDIA Jetson Thor는 데이터센터 GPU 수요와 NVIDIA의 내부 엔지니어링·제조 역량을 경쟁하는 고복잡도 시스템온모듈이다. 2026년 중반 기준, Jetson Thor는 할당제에 있다고 보고된다 — 즉 인형 로봇 제조사의 수요가 즉시 이용 가능한 공급을 초과한다. 이는 새로운 Jetson 모듈의 표준 제품 라이프사이클과 일치한다: 초기 생산량은 제한적이며 할당 우선순위는 NVIDIA가 관리한다.
이것이 양산 일정에 의미하는 것
Jetson Thor를 차량 탑재 컴퓨팅으로 사용하는 Figure AI, 1X Technologies, Apptronik과 같은 기업에게 — 로봇 하드웨어 양산은 어느 정도 NVIDIA의 생산 할당 결정에 의해 제약된다. 기업이 최고의 인형 로봇 프레임을 설계하고, 최고의 기반 모델을 학습시키고, 최고의 고객 계약을 체결할 수 있지만, Thor 모듈에 6–12개월의 납기가 필요하다면 실제 생산 속도는 엔지니어링 역량이 아닌 실리콘에 의해 제약된다.
Tesla와 Waymo는 이 제약에서 격리되어 있다. Tesla는 자체 칩 HW4를 사용한다. Waymo는 자체 맞춤형 ASIC를 사용한다. 어느 쪽도 차량 탑재 추론을 위해 NVIDIA에 의존하지 않는다. 이 제약은 초기 단계에서는 합리적인 절충이었지만 양산 규모에서는 병목이 되는 상업적 NVIDIA 하드웨어의 빠른 경로를 선택하고 맞춤형 실리콘에 투자하지 않은 인형 로봇 스타트업에게만 해당된다.
장기적 해결책: 의미 있는 양산 규모에 도달한 인형 로봇은 실리콘을 자체 제작할지 외부 구매할지 결정해야 할 것이다. 시리즈 C 이후에 도달한 기업들은 맞춤형 ASIC 개발(3–5년 프로그램)을 탐색하거나 NVIDIA와 우선 할당 계약을 협상할 자본이 있을 것이다. 어느 것도 단기적 해결책이 아니다. 2026–2028년 기간 동안, NVIDIA Thor 할당 상한은 인형 로봇 산업이 얼마나 빠르게 확장할 수 있는지에 대한 실제 제약이다.
벤치마크 맥락: 이것은 피지컬 AI 시리즈 다섯 번째 기사
이 트래커는 피지컬 AI를 여러 각도에서 다루는 시리즈의 다섯 번째이다:
- 운영 양산 지표 — 생산 수량, 배포 규모, 주행 거리
- 인형 로봇 기술 — 하드웨어 세대, 손재주 벤치마크, 기반 모델 역량
- AV 안전 및 규제 — 캘리포니아 DMV 데이터, NHTSA 사고 보고, 주 허가 지도
- 투자 및 밸류에이션 — 자금 흐름, 자금 조달 라운드, 내재적 밸류에이션
- 연산 및 실리콘 — 본 기사
연산 레이어는 앞선 네 기사의 모든 주제 아래에 있다. 운영 양산(1편)은 어느 정도 이용 가능한 추론 칩 수의 함수다. 인형 로봇 기술 벤치마크(2편)는 어떤 모델이 차량에서 실시간으로 실행될 수 있는지에 달려 있다. 투자 그림(4편)은 궁극적으로 어떤 기업이 자체 실리콘 스택을 제어하고 어떤 기업이 서드파티 할당에 의존하는지에 의해 형성될 것이다. 실리콘은 피지컬 AI에서 가장 눈에 띄는 레이어가 아니다 — 하지만 가장 근본적인 레이어다.
출처
- NVIDIA Jetson Thor 발표 — NVIDIA 개발자 블로그 ↗
- Tesla HW4 FSD 컴퓨터 — Tesla AI Day ↗
- Tesla Dojo 슈퍼컴퓨터 — Tesla 투자자의 날 ↗
- Mobileye EyeQ Ultra — Mobileye 보도자료 ↗
- Qualcomm Snapdragon Ride Elite — Qualcomm 자동차 제품 ↗