2026-06-18 — views
Physical AI 소프트웨어 스택 아키텍처 — Waymo 모듈형 파이프라인 vs Tesla 엔드투엔드 신경망: AV 역사상 가장 중요한 기술적 결정
Waymo는 해석 가능한 모듈형 파이프라인을 채택; Tesla는 600만 대 차량 데이터로 훈련한 엔드투엔드 신경망에 베팅; 양사 모두 하이브리드 아키텍처로 수렴 중.
Physical AI 벤치마크 시리즈 제136편 — Physical AI 소프트웨어 스택 아키텍처: Waymo 모듈형 파이프라인 vs Tesla 엔드투엔드 신경망, 그리고 스택 선택이 AV 역사상 가장 중요한 기술적 결정인 이유
자율주행 공학에서 가장 큰 미해결 논쟁은 센서도, 지도도, 도시도 아닌 아키텍처에 관한 것이다. 모듈형 파이프라인(인식·예측·계획을 각각 독립 모델로 처리하고 각 단계에서 해석 가능한 중간 출력을 갖는 방식)을 구축해야 하는가? 아니면 엔드투엔드 신경망(원시 센서 데이터가 신경망에 직접 입력되어 실제 차량 비디오로 훈련된 후 조향·가속·제동 명령을 출력하는 방식)을 구축해야 하는가? Waymo는 모듈형을 선택했다. Tesla는 엔드투엔드를 선택했다. 이것은 단순한 기술적 선호가 아니다——안전 철학, 규제 입장, 디버깅 능력, 그리고 궁극적으로 누가 더 빠르게 어디까지 확장할 수 있는지를 결정한다. 이것은 Physical AI 벤치마크 시리즈 제136편이다.
「(추정)」으로 표시된 모든 수치는 공개 공시, 연구 출판물, 업계 애널리스트 추정 및 합리적 추론에서 도출된 것이며, 독립적으로 검증된 1차 데이터가 아니다.
섹션 1 — Waymo의 모듈형 스택
Waymo의 소프트웨어 아키텍처는 계층화된 모듈형 파이프라인이다. 각 레이어는 아래 레이어의 출력을 받아 하나 이상의 전문화된 신경망 또는 규칙 기반 시스템으로 처리하고 구조화된 표현을 위로 전달한다. 설계 철학은 고전적인 소프트웨어 엔지니어링에 뿌리를 두고 있다: 관심사 분리, 각 컴포넌트 독립 테스트, 모든 장애를 모듈 수준에서 진단할 수 있는 보장.
| 모듈 | 기능 | 기술 | 핵심 장점 |
|---|---|---|---|
| 인식 | 원시 센서 데이터(라이다+카메라+레이더)를 받아 구조화된 세계 표현 생성: 차량, 보행자, 자전거, 도로 표시, 신호등 | 복수의 전문 신경망(객체 클래스별·센서별); 센서 퓨전으로 출력 결합 | 각 인식 모델을 개별적으로 테스트·검증·업데이트 가능; 안전 엔지니어가 중간 출력 검사 가능 |
| 예측 | 인식의 구조화된 세계 모델을 받아 모든 에이전트의 미래 궤적 예측 | MultiPath++(Waymo 발표 궤적 예측 모델); 미래 상태에 대한 확률 분포 출력 | 확률적 출력으로 불확실성을 명시적으로; 플래너가 리스크 인식 가능 |
| 계획 | 예측된 궤적을 받아 Waymo 차량의 안전하고 편안한 주행 계획 생성 | MotionCNN + 행동 복제 + 규칙 기반 안전 레이어; 복수의 경쟁 계획 생성 및 채점 | 규칙 기반 안전 레이어 = 신경망이 위반할 수 없는 하드 제약(예: 이중 황선 절대 통과 불가) |
| 제어 | 계획 출력을 정밀한 조향·가속·제동 명령으로 변환 | 전통적인 제어 이론(PID 컨트롤러); 계획으로부터 분리 가능 | 예측 가능, 인증 가능, 규제 당국이 검사 가능 |
| HD 맵 | 도로 구조, 차선 형상, 신호등 위치에 대한 사전 지식 제공 | Waymo 독점 HD 맵(차량으로 지속 업데이트) | 인식 불확실성 감소; 라이다가 맵 대비 센티미터 정밀도로 자기 위치 파악 가능 |
| 시뮬레이션 | 배포 전에 합성 환경에서 각 모듈과 전체 스택 테스트 | Waymo의 Simulation City; NeRF 기반 장면 재구성 | 실주행 1마일에서 1,000개 이상의 시뮬레이션 변형 생성(추정) |
| 안전 모니터 | 다른 모든 모듈을 오버라이드하고 차량을 안전하게 정지시킬 수 있는 독립 워치독 | 규칙 기반; 신경망 아님; 증명적으로 올바르게 설계 | 궁극적인 안전 백스톱; 규제 신뢰의 핵심 |
섹션 2 — Tesla의 엔드투엔드 스택(FSD v12+)
Tesla의 FSD(완전 자율주행) 버전 12는 근본적인 아키텍처 전환을 나타냈다: 모듈형 시스템에서 엔드투엔드 신경망으로. FSD v12 이후 Tesla의 8개 카메라에서 나오는 원시 비디오가 신경망에 흘러들어 직접 주행 계획을 출력한다——명시적인 객체 감지 없음, 명시적인 궤적 예측 없음, 크리티컬 패스에 하드코딩된 규칙 없음. 신경망은 수십억 마일(추정)의 개입 기록 비디오 데이터셋으로 인간 운전자를 모방해 운전을 학습한다.
| 컴포넌트 | 기능 | 기술 | 핵심 장점 |
|---|---|---|---|
| 비디오 토크나이저 | 8개 카메라 비디오 피드를 신경망이 처리할 수 있는 토큰으로 변환 | Tesla 커스텀 비디오 토크나이저; Vision Transformer 개념과 유사 | 공간+시간 컨텍스트 동시 처리; 하드코딩된 객체 감지 불필요 |
| 엔드투엔드 신경망 | 토큰화된 비디오(과거+현재 프레임)를 받아 주행 계획(궤적+속도 프로파일) 직접 출력 | Transformer 아키텍처; 600만+ 차량 데이터로 훈련; 중간 구조화된 표현 없음 | 엔지니어가 명시적으로 코딩할 수 없는 주행 행동 학습; 훈련 데이터 규모로 롱테일 시나리오 처리 |
| 점유 네트워크 | 차량 주변 공간의 3D 점유 상황(어떤 공간이 점유되었고 미래에 점유될 가능성이 있는지) 예측 | 신경 점유 예측; 기존 객체 감지+추적 대체 | 사전 정의 카테고리에 맞지 않는 객체 처리(쓰레기봉투, 특이한 차량) |
| 자동 라벨링 파이프라인 | 훈련용 차량 비디오 자동 라벨링(대규모 인간 주석 필요성 방지) | 신경 라벨링 모델; 엣지 케이스는 인간 검토 | 비례적 인간 주석 비용 없이 수십억 마일로 확장 |
| HD 맵 없음 | FSD v12+는 사전 구축된 HD 맵 불필요 | 비전 기반 실시간 카메라 관측 측위 | Waymo가 맵핑하지 않은 도시에서 동작; 지도 유지 비용 없이 지리적 확장 |
| Dojo 훈련 클러스터 | 엔드투엔드 모델 대규모 훈련 | Tesla 커스텀 D1 칩, ExaPOD 클러스터(1+ ExaFLOP 추정) | 모델 업데이트당 훈련 비용이 H100 클러스터 임대보다 낮을 가능성(추정) |
| 개입 기반 학습 | 드라이버 개입(FSD 인계)이 엣지 케이스 훈련 신호로 기록 | 인간 수정에 기반한 지도 학습 | 600만+ 차량이 방대한 개입 데이터 생성 |
섹션 3 — 아키텍처 비교: 모듈형 vs 엔드투엔드
| 차원 | Waymo (모듈형) | Tesla (엔드투엔드) | 판정 |
|---|---|---|---|
| 해석 가능성 | 높음——각 모듈에 검사 가능한 출력; 엔지니어가 정확하게 장애 진단 | 낮음——“왜 좌회전했나?”는 신경망 내부 상태에서 답하기 어려움 | Waymo 우위(디버깅 및 규제 설명) |
| 인증 가능성 | 높음——규칙 기반 안전 레이어, 분리 가능 모듈, 컴포넌트의 형식 검증 가능 | 낮음——블랙박스 신경망 인증은 미해결 연구 문제 | Waymo 우위(형식적 안전 케이스) |
| 확장성(지리) | 낮음——도시마다 HD 맵 필요(시간+비용); 센서 스위트 고가 | 높음——맵 없는 FSD가 도로 있는 모든 도시에서 동작 | Tesla 우위(지리적 규모) |
| 확장성(엣지 케이스) | 낮음——새 엣지 케이스 카테고리에 명시적 엔지니어링 필요 | 높음——엔드투엔드가 훈련 데이터에서 새 행동 학습 | Tesla 우위(차량 데이터가 충분하다면) |
| 개발 속도 | 느림——모듈 하나 변경 시 다른 모든 모듈과의 상호작용 검증 필요 | 빠름——전체 모델 재훈련; 개선이 자동으로 나타남 | Tesla 우위(반복 속도) |
| 장애 모드 | 예측 가능——각 모듈에 정의된 장애 모드; 안전 모니터가 모듈 장애 포착 | 덜 예측 가능——새로운 입력 분포가 예상치 못한 출력 유발 가능 | Waymo 우위(안전에 중요) |
| 센서 비용 | 높음——라이다+카메라+레이더; 센서 비용 $5,000-15,000+(추정) | 낮음——카메라만; 하드웨어 비용 최소 | Tesla 비용 우위 |
| 지도 유지 비용 | 높음——도시마다 지속적인 지도 업데이트 필요 | 없음——지도 유지 없음 | Tesla 규모 우위 |
| 현재 기술 수준 | Waymo 모듈형 시스템은 오늘날 검증된 무인 상업 운전 방법 | Tesla FSD v12/v13 엔드투엔드는 오늘날 가장 빠르게 개선되는 지도 학습 주행 시스템 | 양사 모두 각자의 배포 체계에서 최첨단 |
섹션 4 — 수렴 논제
| 트렌드 | 증거 | 함의 |
|---|---|---|
| 업계의 엔드투엔드로의 수렴 | Waymo, Mobileye 등 모듈형 스택 기업들이 파이프라인에 신경 엔드투엔드 컴포넌트 추가 중 | 엔드투엔드가 장기적 승자일 수 있음; 모듈형 기업들이 그쪽으로 헤지 |
| Tesla의 구조화된 출력 추가 | Tesla의 점유 네트워크와 차선 예측이 E2E 출력 위에 구조 추가——모듈형 개념으로의 부분적 수렴 | 하이브리드 아키텍처가 양쪽 순수 버전보다 우월할 수 있음 |
| 학술적 컨센서스 전환 | 주요 AV 연구 그룹 논문이 점점 더 E2E 아키텍처 사용; Waymo 자체 연구 논문도 E2E 실험 보여줌 | 학술적 모멘텀이 E2E에 있으며 결국 업계로 흘러들어감 |
| LLM 기반 계획 출현 | Wayve 등이 LLM을 플래너로 사용하는 실험 진행 | LLM 플래너가 두 패러다임 모두 대체할 가능성; Waymo와 Tesla 모두 실험 중 |
| 모방 vs 강화 학습 | 현재 E2E 시스템(Tesla 포함)은 주로 모방 학습; RL 훈련 시스템은 인간 행동 초월 가능 | 양사 모두 RL 탐색 중; RL이 다음 단계 돌파구일 수 있음 |
섹션 5 — 소프트웨어 스택 벤치마크 스코어카드
| 차원 | Waymo | Tesla | 우위 |
|---|---|---|---|
| 현재 무인 주행 신뢰성 | 검증됨——주당 150,000+ 탑승, 1,000만+ 무인 주행 마일(추정) | 아직 무인 주행 없음(감독 FSD만) | Waymo |
| 해석 가능성과 디버그 가능성 | 높음(모듈형) | 낮음(엔드투엔드 블랙박스) | Waymo |
| 지리적 확장성 | 낮음(도시마다 HD 맵 필요) | 높음(맵 없는 FSD) | Tesla |
| 엣지 케이스 학습 속도 | 느림(엔지니어링+재훈련 필요) | 빠름(차량 데이터→재훈련→배포) | Tesla |
| 규제 인증 가능성 | 높음(규칙 기반 레이어, 검사 가능 모듈) | 낮음(신경망 인증 미해결) | Waymo |
| 차량당 센서 비용 | 높음(~$5K-15K 라이다+카메라+레이더 추정) | 낮음(카메라만) | Tesla |
| 아키텍처 방향 | 하이브리드로 수렴 중(E2E 컴포넌트 추가) | 하이브리드로 수렴 중(구조화된 출력 추가) | 동점——양사 모두 하이브리드 향해 나아가는 중 |
| 장기적 승자 | 불확실——모듈형은 안전 설명 가능성에서 우위; 엔드투엔드는 확장성에서 우위; 하이브리드가 답일 수 있음 | — | 열린 질문; Physical AI에서 가장 중요한 미해결 논쟁 |
스코어카드는 AV 업계가 아직 해결하지 못한 근본적 긴장을 드러낸다. Waymo는 오늘날 안전 인증과 규제 승인에 가장 중요한 모든 차원에서 앞서 있다; Tesla는 상업적 빠른 규모화에 가장 중요한 모든 차원에서 앞서 있다. 2020년대 AV 아키텍처 논쟁은 결국 두 극단을 먼저 구축하고 각각에 무엇이 부족한지 발견함으로써 업계가 하이브리드 아키텍처가 어떤 모습이어야 하는지를 배운 10년으로 기억될 수 있다.
참고: 「(추정)」으로 표시된 모든 수치는 2026년 중반 기준 공개 공시, 연구 출판물, 애널리스트 추정, 업계 보고서에서 도출된 것이다. 이 기사는 투자 조언을 구성하지 않는다.
출처
- Waymo MultiPath++ 궤적 예측 — Waymo 리서치 ↗
- Tesla FSD v12 엔드투엔드 아키텍처 — Tesla AI Day ↗
- Tesla 점유 네트워크 — Tesla AI ↗
- Waymo 시뮬레이션 인프라 — Waymo 리서치 ↗
- 엔드투엔드 자율주행 서베이 — arXiv ↗