2026-06-18 — views
피지컬 AI 컴퓨팅 아키텍처 — 엣지 vs 클라우드: Tesla FSD 칩, Waymo 커스텀 ASIC, Dojo
엣지 추론 vs 클라우드 학습: Tesla FSD 칩, Waymo 커스텀 ASIC, Dojo가 자율주행의 완전한 컴퓨팅 스택을 어떻게 분담하는가.
피지컬 AI 벤치마크 시리즈 제57편 — 완전한 컴퓨팅 스택
FSD가 활성화된 Tesla가 보행자가 연석에서 발을 내딛는 순간을 감지할 때마다, 그 감지를 뒷받침하는 연산은 모두 차량 내부에서 완료된다. 대시보드 뒤에 고정된 커스텀 칩 안에서, 약 100와트를 소비하며, Tesla 서버에 전혀 연결되지 않은 채로 처리된다. 그러나 그 칩에 로드된 신경망 가중치는 Tesla의 클라우드 인프라에서 수천 GPU년의 컴퓨팅 파워로 학습된 것이다. 문제의 두 부분——추론과 학습——은 근본적으로 다른 컴퓨팅 아키텍처를 필요로 하며, 각 자율주행 기업이 이 두 가지 측면에서 내리는 선택이 향후 10년간의 경쟁을 결정할 것이다.
이 글은 컴퓨팅 스택의 전체 그림을 그린다: 차량 탑재 엣지 컴퓨팅의 실체, 클라우드의 작동 방식, 그리고 각 기업이 승리를 위해 구축한 커스텀 실리콘.
제1절 — 엣지 컴퓨팅이 자율주행에 필수적인 이유
모든 자율주행 차량의 기본 아키텍처는 피할 수 없는 물리적 제약에 의해 결정된다: 밀리초 단위로 실행해야 하는 판단은 수백 킬로미터 떨어진 서버를 기다릴 수 없다.
| 제약 조건 | 세부 내용 |
|---|---|
| 지연 시간 요구사항 | 자율주행 차량은 전체 루프를 100밀리초 이내에 인지·계획·제어를 완료해야 한다(추정값); 클라우드 왕복만으로 20~100밀리초의 네트워크 지연이 추가된다——안전 임계적 판단에는 허용 불가 |
| 연결 신뢰성 | 4G/5G 네트워크에는 음영 지역, 혼잡, 장애가 있다; 안전 주행을 위해 연결이 필요한 자율주행 차량은 상업적 규모로 배포가 불가능하다 |
| 데이터 대역폭 | 카메라 8개와 LIDAR와 레이더는 시간당 1~2TB의 원시 센서 데이터를 생성한다(추정값); 현재 어떤 무선 표준으로도 이것을 실시간으로 클라우드에 스트리밍하는 것은 불가능하다 |
| 규제 요건 | 대부분의 자율주행 안전 프레임워크는 차량 탑재 페일오퍼레이셔널 기능을 요구한다——차량은 외부 연결 없이 스스로 안전하게 정지할 수 있어야 한다 |
이러한 제약에서 모든 진지한 자율주행 엔지니어링 팀이 따르는 원칙이 생겨난다: 추론은 엣지에서 실행하고, 학습은 클라우드에서 수행한다. 차량은 클라우드에서 학습된 모델을 로컬에서 실행하고, 엣지 케이스의 엄선된 클립을 클라우드에 업로드하여 재학습시키며, 주기적으로 OTA를 통해 모델 업데이트를 수신한다.
제2절 — Tesla의 엣지 컴퓨팅: FSD 칩
Tesla는 2016년 공급업체에 의존하는 대신 자체적으로 신경 처리 하드웨어를 설계하기로 결정함으로써, 자동차 산업에서 가장 중요한 엣지 실리콘 베팅을 했다. 그 결과물이 Tesla FSD 컴퓨터다.
| 구성 요소 | 세부 내용 |
|---|---|
| 칩 이름 | Tesla FSD 컴퓨터 (HW3: 2019년, HW4: 2023년) |
| 아키텍처 | 전 Apple 칩 팀의 Pete Bannon이 이끄는 Tesla 사내 실리콘 팀이 설계한 커스텀 신경 처리 유닛(NPU) |
| HW4 사양 | 듀얼 칩 설계; 각 칩에 12개의 ARM Cortex-A77 코어, 2개의 NPU, GPU 탑재; 칩당 약 100 TOPS, 합산 약 200 TOPS(추정값) |
| 전력 소비 | FSD 컴퓨터 시스템 전체 약 100W(추정값) |
| 이중화 설계 | 듀얼 칩 설계로 하드웨어 이중화 제공; 페일오퍼레이셔널 아키텍처로 한 칩이 고장나도 다른 칩이 동작 유지 가능 |
| 메모리 | 추론 중 신경망 가중치 고속 접근을 위한 HBM2(고대역폭 메모리) |
| 실행 내용 | 모든 FSD 추론: 카메라 처리, 점유 네트워크, 신경 플래너, 속도 컨트롤러——완전한 엔드투엔드 파이프라인 |
| OTA 업데이트 | Tesla의 셀룰러 네트워크를 통해 모델 가중치 OTA 업데이트; 새 FSD 소프트웨어 버전마다 업데이트된 신경망 가중치가 칩에 배포됨 |
| HW5(추정값) | 차세대 칩 예정; FSD v14 이상을 위해 대폭 높아진 TOPS 예상 |
자체 설계의 전략적 논리는 Apple이 M 시리즈에 적용한 것과 동일하다: 신경망 토폴로지를 소유하면 네트워크가 필요로 하는 정확한 행렬 연산을 가속하도록 칩 아키텍처를 공동 최적화할 수 있다. 이 특수성은 특정 작업에서 더 나은 와트당 성능으로 변환된다——전력이 제한되고 열 관리가 승객 쾌적성에 영향을 미치는 차량에서 이는 매우 중요하다.
제3절 — Waymo의 엣지 컴퓨팅: 커스텀 ASIC과 Orin
Waymo의 차량 탑재 컴퓨팅 문제는 구조적으로 Tesla보다 더 어렵다. Tesla의 센서 스위트는 카메라만 있다——LIDAR도, 레이더도 없다. Waymo의 센서 스위트는 LIDAR, 카메라, 레이더를 결합하며, 각각 고주파수로 다양한 유형의 데이터를 생성하고 모두 실시간으로 처리, 융합, 해석되어야 한다.
| 구성 요소 | 세부 내용 |
|---|---|
| 주 추론 칩 | Waymo는 센서 처리를 위한 커스텀 ASIC을 설계했다; 10~20 Hz의 LIDAR 포인트 클라우드 처리에는 전용 하드웨어 필요; 일반 신경망 추론에는 NVIDIA Orin SoC 사용(추정값) |
| LIDAR 처리 | 고주파수 360도 LIDAR 포인트 클라우드에는 포인트 클라우드 세그멘테이션과 물체 감지를 위한 전용 컴퓨팅 필요; 이 워크로드는 범용 GPU 아키텍처에 효율적으로 매핑되지 않는다 |
| 센서 퓨전 | LIDAR, 카메라, 레이더 데이터 스트림의 실시간 융합은 카메라 단독 처리보다 훨씬 컴퓨팅 집약적; 퓨전 단계는 신경망 플래너가 동작하기 전에 완료되어야 한다 |
| HD 맵 로컬라이제이션 | 실시간 LIDAR 포인트 클라우드를 저장된 HD 맵과 대조하는 데 인식 파이프라인 외의 추가 전용 컴퓨팅 필요 |
| 차량 탑재 총 컴퓨팅 | LIDAR 및 레이더 처리 요구사항으로 인해 Tesla보다 훨씬 많다(추정값); Waymo는 TOPS 수치를 공개하지 않음 |
| 전력 소비 | LIDAR 하드웨어와 레이더 하드웨어와 추가 컴퓨팅으로 인해 Tesla보다 높다(추정값); 열 관리는 인정된 엔지니어링 과제 |
| 6세대 차량 | Waymo 전용 6세대 차량은 센서와 컴퓨팅 하드웨어를 처음부터 통합 설계하여 초기 세대의 개조 오버헤드를 줄임 |
제4절 — 클라우드 학습: Dojo vs Google TPU
엣지 컴퓨팅은 오늘 차량이 할 수 있는 것을 결정한다. 클라우드 학습 인프라는 내일 차량이 얼마나 빨리 개선될지를 결정한다.
| Tesla Dojo | Waymo (Google TPU) | |
|---|---|---|
| 학습 하드웨어 | 커스텀 Dojo D1 칩과 ExaPOD 클러스터; 각 D1 칩은 BF16 정밀도에서 약 50 TFLOPS, 메모리 대역폭 10 TB/s | Google TPU v4/v5 Pod; Waymo는 Alphabet 자회사로 Google의 전체 TPU 플릿에 접근 가능 |
| 클러스터 규모 | Tesla는 약 1 ExaFLOP의 AI 학습 컴퓨팅 파워 목표(추정값, 2025년 말); Dojo 2가 추가 확장을 위해 발표됨 | Google의 TPU 플릿은 세계 최대 AI 학습 클러스터 중 하나; Waymo는 사실상 무제한 온디맨드 접근 가능(추정값) |
| 학습 데이터 파이프라인 | FSD 지원 Tesla 차량 약 600만 대가 섀도 모드로 클립 생성; 엣지 케이스로 플래그된 클립이 우선 업로드 및 레이블링 | 전용 매핑 차량과 약 1,500대 로보택시 플릿; 데이터셋 규모는 작지만 완전 무인 주행 마일 비율이 높음 |
| 학습 목표 | 인간 운전자 영상에서의 모방 학습(FSD v12+): 신경망 출력과 인간 운전 행동 간 차이 최소화 | 물체 감지, 점유 예측, 궤적 예측, 행동 예측에 걸친 멀티태스크 학습(추정값) |
| 핵심 우위 | 학습 파이프라인의 엔드투엔드 제어; 빠른 이터레이션; 클라우드 벤더 의존성 없음 | Google의 전체 TPU 용량으로 온디맨드 확장; 학습 하드웨어 자본 지출 불필요 |
| 핵심 리스크 | 커스텀 실리콘은 집중된 베팅; Dojo가 NVIDIA 대안을 하회하면 학습 처리량이 뒤처진다 | 하드웨어 리스크 없음; Google TPU는 규모에서 검증됨; 리스크는 Tesla 대비 데이터 볼륨 |
제5절 — 플릿 데이터 루프: 학습과 배포의 연결
컴퓨팅 아키텍처——엣지 추론 칩과 클라우드 학습 클러스터——는 각 시스템의 개선 속도를 결정하는 데이터 플라이휠을 지원한다.
플릿 차량이 엣지 추론 실행
→ 엄선된 흥미로운 클립을 클라우드에 업로드
→ 새 데이터로 클라우드 학습 (Dojo / Google TPU)
→ 개선된 모델 가중치 생성
→ OTA 업데이트를 플릿에 배포
→ 플릿 성능 향상
→ 더 나은 데이터 클립 → 더 효과적인 다음 학습 사이클
| 플라이휠 구성 요소 | Tesla | Waymo |
|---|---|---|
| 데이터 볼륨 | FSD 지원 차량 약 600만 대; 주당 수천만 플릿 마일 | 약 1,500대 차량; 주당 15만 회 이상 무인 라이드 |
| 데이터 품질 | 주로 감독된 마일(인간 운전자 탑승); 인간 개입이 실제 엣지 케이스를 표시 | 완전 무인 주행 마일; 인수할 인간 운전자 없음——모든 판단이 시스템 생성 |
| 업로드 대역폭 | 셀룰러 연결; 차량 탑재 네트워크가 이상으로 플래그한 클립 선택적 업로드 | 알려진 차고 및 기지에서 전용 업로드(추정값) |
| 학습 처리량 | Dojo는 자본 투자로 확장; Tesla가 속도 제어 | Google TPU가 온디맨드로 확장; 새 하드웨어 없이 용량 급증 가능 |
| 배포 지연 시간 | 새 모델 출시 후 수일 이내에 약 600만 대에 OTA | 수 시간 이내에 약 1,500대에 OTA |
이 플라이휠의 비대칭성이 자율주행 업계의 핵심 전략적 긴장이다. Tesla는 거대한 데이터 볼륨 우위를 갖는다——600만 대 대 1,500대. 그러나 Waymo는 데이터 품질 우위를 갖는다: 데이터셋의 모든 마일이 인간이 개입할 준비 없이 주행되었으며, 시스템 자신의 판단(실수 포함)이 완전히 기록되어 있다. 데이터 볼륨과 데이터 품질 중 무엇이 더 중요한지는 아직 실증적으로 결론이 나지 않았다——답은 수십억 마일의 안전 기록에 의해 밝혀질 것이다.
출처: Tesla FSD 컴퓨터 및 Dojo 사양——tesla.com/AI (Tesla AI Day 2022, 2023); NVIDIA Orin SoC 자동차 사양——nvidia.com/en-us/self-driving-cars/drive-orin/; Google Cloud TPU 문서——cloud.google.com/tpu; Waymo 기술 개요——waymo.com/waymo-driver/. “추정값”으로 표시된 수치는 공개 기업 자료, 업계 보도, 애널리스트 리서치에서 도출된 것으로, 독립적으로 검증되지 않았으며 방향성 참고로만 취급해야 합니다. 이 글은 투자 조언을 구성하지 않습니다.
출처
- Tesla FSD 컴퓨터 HW4 사양 — Tesla AI Day 2022 ↗
- Tesla Dojo 슈퍼컴퓨터 — Tesla AI 인프라 ↗
- NVIDIA Orin SoC 자동차 컴퓨팅 — NVIDIA ↗
- Google TPU 플릿 — Google Cloud ↗