2026-06-18 — views

피지컬 AI 컴퓨팅 아키텍처 — 엣지 vs 클라우드: Tesla FSD 칩, Waymo 커스텀 ASIC, Dojo

엣지 추론 vs 클라우드 학습: Tesla FSD 칩, Waymo 커스텀 ASIC, Dojo가 자율주행의 완전한 컴퓨팅 스택을 어떻게 분담하는가.

피지컬 AI 벤치마크 시리즈 제57편 — 완전한 컴퓨팅 스택

FSD가 활성화된 Tesla가 보행자가 연석에서 발을 내딛는 순간을 감지할 때마다, 그 감지를 뒷받침하는 연산은 모두 차량 내부에서 완료된다. 대시보드 뒤에 고정된 커스텀 칩 안에서, 약 100와트를 소비하며, Tesla 서버에 전혀 연결되지 않은 채로 처리된다. 그러나 그 칩에 로드된 신경망 가중치는 Tesla의 클라우드 인프라에서 수천 GPU년의 컴퓨팅 파워로 학습된 것이다. 문제의 두 부분——추론과 학습——은 근본적으로 다른 컴퓨팅 아키텍처를 필요로 하며, 각 자율주행 기업이 이 두 가지 측면에서 내리는 선택이 향후 10년간의 경쟁을 결정할 것이다.

이 글은 컴퓨팅 스택의 전체 그림을 그린다: 차량 탑재 엣지 컴퓨팅의 실체, 클라우드의 작동 방식, 그리고 각 기업이 승리를 위해 구축한 커스텀 실리콘.

제1절 — 엣지 컴퓨팅이 자율주행에 필수적인 이유

모든 자율주행 차량의 기본 아키텍처는 피할 수 없는 물리적 제약에 의해 결정된다: 밀리초 단위로 실행해야 하는 판단은 수백 킬로미터 떨어진 서버를 기다릴 수 없다.

제약 조건	세부 내용
지연 시간 요구사항	자율주행 차량은 전체 루프를 100밀리초 이내에 인지·계획·제어를 완료해야 한다(추정값); 클라우드 왕복만으로 20~100밀리초의 네트워크 지연이 추가된다——안전 임계적 판단에는 허용 불가
연결 신뢰성	4G/5G 네트워크에는 음영 지역, 혼잡, 장애가 있다; 안전 주행을 위해 연결이 필요한 자율주행 차량은 상업적 규모로 배포가 불가능하다
데이터 대역폭	카메라 8개와 LIDAR와 레이더는 시간당 1~2TB의 원시 센서 데이터를 생성한다(추정값); 현재 어떤 무선 표준으로도 이것을 실시간으로 클라우드에 스트리밍하는 것은 불가능하다
규제 요건	대부분의 자율주행 안전 프레임워크는 차량 탑재 페일오퍼레이셔널 기능을 요구한다——차량은 외부 연결 없이 스스로 안전하게 정지할 수 있어야 한다

이러한 제약에서 모든 진지한 자율주행 엔지니어링 팀이 따르는 원칙이 생겨난다: 추론은 엣지에서 실행하고, 학습은 클라우드에서 수행한다. 차량은 클라우드에서 학습된 모델을 로컬에서 실행하고, 엣지 케이스의 엄선된 클립을 클라우드에 업로드하여 재학습시키며, 주기적으로 OTA를 통해 모델 업데이트를 수신한다.

제2절 — Tesla의 엣지 컴퓨팅: FSD 칩

Tesla는 2016년 공급업체에 의존하는 대신 자체적으로 신경 처리 하드웨어를 설계하기로 결정함으로써, 자동차 산업에서 가장 중요한 엣지 실리콘 베팅을 했다. 그 결과물이 Tesla FSD 컴퓨터다.

구성 요소	세부 내용
칩 이름	Tesla FSD 컴퓨터 (HW3: 2019년, HW4: 2023년)
아키텍처	전 Apple 칩 팀의 Pete Bannon이 이끄는 Tesla 사내 실리콘 팀이 설계한 커스텀 신경 처리 유닛(NPU)
HW4 사양	듀얼 칩 설계; 각 칩에 12개의 ARM Cortex-A77 코어, 2개의 NPU, GPU 탑재; 칩당 약 100 TOPS, 합산 약 200 TOPS(추정값)
전력 소비	FSD 컴퓨터 시스템 전체 약 100W(추정값)
이중화 설계	듀얼 칩 설계로 하드웨어 이중화 제공; 페일오퍼레이셔널 아키텍처로 한 칩이 고장나도 다른 칩이 동작 유지 가능
메모리	추론 중 신경망 가중치 고속 접근을 위한 HBM2(고대역폭 메모리)
실행 내용	모든 FSD 추론: 카메라 처리, 점유 네트워크, 신경 플래너, 속도 컨트롤러——완전한 엔드투엔드 파이프라인
OTA 업데이트	Tesla의 셀룰러 네트워크를 통해 모델 가중치 OTA 업데이트; 새 FSD 소프트웨어 버전마다 업데이트된 신경망 가중치가 칩에 배포됨
HW5(추정값)	차세대 칩 예정; FSD v14 이상을 위해 대폭 높아진 TOPS 예상

자체 설계의 전략적 논리는 Apple이 M 시리즈에 적용한 것과 동일하다: 신경망 토폴로지를 소유하면 네트워크가 필요로 하는 정확한 행렬 연산을 가속하도록 칩 아키텍처를 공동 최적화할 수 있다. 이 특수성은 특정 작업에서 더 나은 와트당 성능으로 변환된다——전력이 제한되고 열 관리가 승객 쾌적성에 영향을 미치는 차량에서 이는 매우 중요하다.

제3절 — Waymo의 엣지 컴퓨팅: 커스텀 ASIC과 Orin

Waymo의 차량 탑재 컴퓨팅 문제는 구조적으로 Tesla보다 더 어렵다. Tesla의 센서 스위트는 카메라만 있다——LIDAR도, 레이더도 없다. Waymo의 센서 스위트는 LIDAR, 카메라, 레이더를 결합하며, 각각 고주파수로 다양한 유형의 데이터를 생성하고 모두 실시간으로 처리, 융합, 해석되어야 한다.

구성 요소	세부 내용
주 추론 칩	Waymo는 센서 처리를 위한 커스텀 ASIC을 설계했다; 10~20 Hz의 LIDAR 포인트 클라우드 처리에는 전용 하드웨어 필요; 일반 신경망 추론에는 NVIDIA Orin SoC 사용(추정값)
LIDAR 처리	고주파수 360도 LIDAR 포인트 클라우드에는 포인트 클라우드 세그멘테이션과 물체 감지를 위한 전용 컴퓨팅 필요; 이 워크로드는 범용 GPU 아키텍처에 효율적으로 매핑되지 않는다
센서 퓨전	LIDAR, 카메라, 레이더 데이터 스트림의 실시간 융합은 카메라 단독 처리보다 훨씬 컴퓨팅 집약적; 퓨전 단계는 신경망 플래너가 동작하기 전에 완료되어야 한다
HD 맵 로컬라이제이션	실시간 LIDAR 포인트 클라우드를 저장된 HD 맵과 대조하는 데 인식 파이프라인 외의 추가 전용 컴퓨팅 필요
차량 탑재 총 컴퓨팅	LIDAR 및 레이더 처리 요구사항으로 인해 Tesla보다 훨씬 많다(추정값); Waymo는 TOPS 수치를 공개하지 않음
전력 소비	LIDAR 하드웨어와 레이더 하드웨어와 추가 컴퓨팅으로 인해 Tesla보다 높다(추정값); 열 관리는 인정된 엔지니어링 과제
6세대 차량	Waymo 전용 6세대 차량은 센서와 컴퓨팅 하드웨어를 처음부터 통합 설계하여 초기 세대의 개조 오버헤드를 줄임

제4절 — 클라우드 학습: Dojo vs Google TPU

엣지 컴퓨팅은 오늘 차량이 할 수 있는 것을 결정한다. 클라우드 학습 인프라는 내일 차량이 얼마나 빨리 개선될지를 결정한다.

	Tesla Dojo	Waymo (Google TPU)
학습 하드웨어	커스텀 Dojo D1 칩과 ExaPOD 클러스터; 각 D1 칩은 BF16 정밀도에서 약 50 TFLOPS, 메모리 대역폭 10 TB/s	Google TPU v4/v5 Pod; Waymo는 Alphabet 자회사로 Google의 전체 TPU 플릿에 접근 가능
클러스터 규모	Tesla는 약 1 ExaFLOP의 AI 학습 컴퓨팅 파워 목표(추정값, 2025년 말); Dojo 2가 추가 확장을 위해 발표됨	Google의 TPU 플릿은 세계 최대 AI 학습 클러스터 중 하나; Waymo는 사실상 무제한 온디맨드 접근 가능(추정값)
학습 데이터 파이프라인	FSD 지원 Tesla 차량 약 600만 대가 섀도 모드로 클립 생성; 엣지 케이스로 플래그된 클립이 우선 업로드 및 레이블링	전용 매핑 차량과 약 1,500대 로보택시 플릿; 데이터셋 규모는 작지만 완전 무인 주행 마일 비율이 높음
학습 목표	인간 운전자 영상에서의 모방 학습(FSD v12+): 신경망 출력과 인간 운전 행동 간 차이 최소화	물체 감지, 점유 예측, 궤적 예측, 행동 예측에 걸친 멀티태스크 학습(추정값)
핵심 우위	학습 파이프라인의 엔드투엔드 제어; 빠른 이터레이션; 클라우드 벤더 의존성 없음	Google의 전체 TPU 용량으로 온디맨드 확장; 학습 하드웨어 자본 지출 불필요
핵심 리스크	커스텀 실리콘은 집중된 베팅; Dojo가 NVIDIA 대안을 하회하면 학습 처리량이 뒤처진다	하드웨어 리스크 없음; Google TPU는 규모에서 검증됨; 리스크는 Tesla 대비 데이터 볼륨

제5절 — 플릿 데이터 루프: 학습과 배포의 연결

컴퓨팅 아키텍처——엣지 추론 칩과 클라우드 학습 클러스터——는 각 시스템의 개선 속도를 결정하는 데이터 플라이휠을 지원한다.

플릿 차량이 엣지 추론 실행
    → 엄선된 흥미로운 클립을 클라우드에 업로드
    → 새 데이터로 클라우드 학습 (Dojo / Google TPU)
    → 개선된 모델 가중치 생성
    → OTA 업데이트를 플릿에 배포
    → 플릿 성능 향상
    → 더 나은 데이터 클립 → 더 효과적인 다음 학습 사이클

플라이휠 구성 요소	Tesla	Waymo
데이터 볼륨	FSD 지원 차량 약 600만 대; 주당 수천만 플릿 마일	약 1,500대 차량; 주당 15만 회 이상 무인 라이드
데이터 품질	주로 감독된 마일(인간 운전자 탑승); 인간 개입이 실제 엣지 케이스를 표시	완전 무인 주행 마일; 인수할 인간 운전자 없음——모든 판단이 시스템 생성
업로드 대역폭	셀룰러 연결; 차량 탑재 네트워크가 이상으로 플래그한 클립 선택적 업로드	알려진 차고 및 기지에서 전용 업로드(추정값)
학습 처리량	Dojo는 자본 투자로 확장; Tesla가 속도 제어	Google TPU가 온디맨드로 확장; 새 하드웨어 없이 용량 급증 가능
배포 지연 시간	새 모델 출시 후 수일 이내에 약 600만 대에 OTA	수 시간 이내에 약 1,500대에 OTA

이 플라이휠의 비대칭성이 자율주행 업계의 핵심 전략적 긴장이다. Tesla는 거대한 데이터 볼륨 우위를 갖는다——600만 대 대 1,500대. 그러나 Waymo는 데이터 품질 우위를 갖는다: 데이터셋의 모든 마일이 인간이 개입할 준비 없이 주행되었으며, 시스템 자신의 판단(실수 포함)이 완전히 기록되어 있다. 데이터 볼륨과 데이터 품질 중 무엇이 더 중요한지는 아직 실증적으로 결론이 나지 않았다——답은 수십억 마일의 안전 기록에 의해 밝혀질 것이다.

출처: Tesla FSD 컴퓨터 및 Dojo 사양——tesla.com/AI (Tesla AI Day 2022, 2023); NVIDIA Orin SoC 자동차 사양——nvidia.com/en-us/self-driving-cars/drive-orin/; Google Cloud TPU 문서——cloud.google.com/tpu; Waymo 기술 개요——waymo.com/waymo-driver/. “추정값”으로 표시된 수치는 공개 기업 자료, 업계 보도, 애널리스트 리서치에서 도출된 것으로, 독립적으로 검증되지 않았으며 방향성 참고로만 취급해야 합니다. 이 글은 투자 조언을 구성하지 않습니다.