2026-06-18 — views

Waymo Driver 소프트웨어 아키텍처——세계 최대 무인 자동차 플리트를 구동하는 6계층 스택 심층 분석

Waymo의 모듈형 6계층 스택—지각·세계 모델링·예측·계획·제어—은 안전 기록의 기술적 토대다.

물리적 AI 벤치마크 시리즈 42편: Waymo Driver 소프트웨어 아키텍처

Waymo Driver는 세계 최대 상업용 완전 무인 자동차 플리트를 구동하는 자율주행 소프트웨어 스택이다. 2026년 중반 기준으로, Waymo는 샌프란시스코·로스앤젤레스·피닉스·오스틴 4개 도시에서 매주 10만 건 이상의 무인 탑승 서비스를 제공하고 있으며, 차 안에 안전 요원은 한 명도 없다. 이 소프트웨어의 구조를 이해하는 것은 이 안전 기록이 왜 가능한지를 파악하는 데 필수적이며, Waymo가 어떻게 새로운 도시에 서비스를 확장하고 16년간의 개발로 어떤 기술적 해자를 쌓았는지를 이해하는 열쇠이기도 하다. 이 글은 시리즈 내 Tesla FSD 아키텍처 기사들의 기술적 대조편으로 기획되었다.

Tesla의 엔드투엔드 신경망——센서 입력으로부터 단일 학습 모델이 직접 스티어링·스로틀·브레이크 명령을 생성하는 구조——과는 달리, Waymo의 아키텍처는 명시적으로 모듈형이다. 각 계층은 명확히 정의된 입력과 출력, 그리고 경계가 있는 실패 모드를 갖는다. 이 모듈화는 우연이 아니다. “안전 요원 없이 상업적으로 운영될 수 있을 만큼 형식적으로 검증 가능한 시스템을 어떻게 구축할 것인가”라는 질문에 대한 Waymo의 의도적인 공학적 답이다.

1절: 6계층 스택 상세 분석

업계에서는 흔히 “5계층”으로 단순화하지만, Waymo의 실제 시스템에서는 센서 처리 계층과 지각 계층이 분리되어 있어 정확히는 6계층 구조다.

계층	기능	Waymo의 접근 방식	Tesla의 접근 방식
1. 센서 처리	원시 센서 데이터 → 정리·보정된 포인트 클라우드와 이미지	LiDAR + 카메라 + 레이더 융합; 독자적 센서 보정 파이프라인	카메라 전용; 실시간 이미지 처리; LiDAR 없음
2. 지각	센서 데이터 → 위치·속도 포함 객체(차량·보행자·자전거·콘)	멀티모달 융합: LiDAR가 정밀한 3D 형상을, 카메라가 외관·색상·텍스트를, 레이더가 속도를 제공	카메라 전용; 엔드투엔드 신경망이 이미지 스트림에서 직접 객체 예측
3. 세계 모델링	객체 → 현재 환경의 의미 지도(차선·신호·공사 구역)	HD 맵 + 실시간 센서 업데이트; 의미 지도 계층이 차선 연결성·신호 위상·합법 행동 규칙 포함	희소 맵 또는 맵 없음; 카메라에서 차선 구조를 추론하는 신경망에 의존
4. 예측	현재 세계 상태 → 모든 에이전트의 미래 상태 확률 분포	불확실성 모델링이 포함된 구조화 궤적 예측; 사회 규범·교통 관행 반영	엔드투엔드: 예측이 정책 네트워크에 암묵적으로 내포되어 독립 모듈 아님
5. 계획	예측된 미래 상태 → Waymo의 의도 궤적(경로 + 속도 프로파일)	다중 가설 계획: N개의 후보 궤적을 생성하고 안전성·편안함·규칙 준수 기준으로 채점 후 최적 선택	엔드투엔드: 계획이 정책 네트워크에 암묵적으로 내포되어 독립 모듈 아님
6. 제어	의도 궤적 → 스티어링·스로틀·브레이크 명령	모델 예측 제어(MPC): 예측 보상으로 계획 궤적 추종	엔드투엔드: 제어가 정책 네트워크에서 직접 출력

각 계층의 역할 분담은 명확하다. LiDAR는 센서 처리 계층에서 고정밀 3D 형상 정보를 제공하고, 카메라는 지각 계층에서 의미 정보(색상·텍스트·객체 카테고리)를 보완하며, 레이더는 속도 추정에서 독립적인 검증 기능을 수행한다. 이 멀티모달 융합 덕분에 단일 센서의 고장이 지각 계층 전체의 붕괴로 이어지지 않는다.

2절: 모듈형 아키텍처가 안전에 중요한 이유

각 계층은 독립적으로 검증 가능하다.

지각 계층의 오류는 감지하고 한계를 설정할 수 있다——LiDAR와 카메라가 특정 객체에 대해 불일치를 보일 경우 해당 객체를 불확실로 표시 가능;
예측 계층의 오류는 정량화할 수 있다——예측된 보행자 궤적이 실제 궤적과 얼마나 일치하는지를 체계적으로 측정 가능;
계획 계층은 시뮬레이션 내에서 규칙 집합에 대해 형식 검증이 가능하다——“이 궤적이 어떤 상황에서도 교통법규를 위반하지 않는가”라는 질문에 답할 수 있다;
제어 계층은 알려진 기준 궤적에 대해 독립적으로 테스트 가능하다.

Tesla의 엔드투엔드 아키텍처는 단일 신경망이다. 장점은 단순성과 강한 일반화 능력; 단점은 형식 검증의 어려움이다——“예측 버그”와 “계획 버그”는 독립된 모듈로 존재하지 않기 때문에 분리해서 검증할 수 없다.

상업적 규모의 배포에서 Waymo의 모듈형 접근 방식은 세 가지 핵심 능력을 가능하게 한다.

계층별 디버깅 능력: 보행자가 잘못 분류되었을 때, 그 실패는 지각 계층에 국소화된다. 정책 네트워크 전체를 검증할 필요 없이, 엔지니어는 지각 계층의 훈련 데이터·모델 가중치·후처리 규칙을 직접 수정할 수 있다.

계층별 안전 모니터링: 각 계층의 출력이 다음 계층으로 전달되기 전에 독립적인 안전 검사기가 검증할 수 있다. 이 계층형 안전 아키텍처를 통해 단일 계층의 비정상 출력이 하위 계층으로 전파되기 전에 차단·처리될 수 있다.

HD 맵의 하드 제약: 맵은 정책 네트워크가 재정의할 수 없는 물리적 진실을 제공한다——“이 도로는 일방통행”은 학습된 선호가 아닌 하드 제약이다. 실시간 지각 결과와 맵 정보가 충돌할 경우, 맵의 하드 제약 계층이 시스템의 준법 위반 결정을 차단할 수 있다.

3절: HD 맵——강점과 제약

측면	HD 맵 (Waymo)	맵 불필요 (Tesla)
매핑된 지역에서의 안전성	높음——맵이 물리적 진실 제공; 센서 융합이 시간적 간격 보완	양호——신경망이 매핑된·미매핑 지역을 동등하게 처리
확장 속도	느림——새 도시마다 수개월의 매핑과 검증 필요	빠름——FSD는 Tesla가 주행한 적 있는 도로라면 어디서든 작동
공사·이벤트 처리	빈번한 맵 업데이트 필요; Waymo는 전용 매핑 차량 운영	신경망이 동적으로 처리(맵 업데이트 불필요)
엣지 케이스 처리	매핑된 지역 내에서는 충분히 대응; 맵 커버리지 외부에서는 성능 저하	훈련 데이터에 유사 상황이 포함되어 있는지에 따라 다름
맵 업데이트 지연	플리트 실시간 업데이트; 대규모 변경은 배치 업데이트	업데이트할 맵 없음

HD 맵은 Waymo가 새 도시 진입에 보통 6~12개월(est.)이 소요되는 근본적인 이유다. 첫 번째 차량이 상업 운행을 시작하기 전에 매핑·주석·시뮬레이션 캠페인이 완료되어야 한다. 이는 Waymo의 도시 확장 속도에 대한 구조적 제약이지만, 동시에 매핑된 지역에서의 안전 성능의 핵심 원천이기도 하다. HD 맵은 계획 계층에 흔들리지 않는 의미론적 기반을 제공한다——차선 연결 토폴로지·법정 속도 제한·우회전 금지·신호등 위치——이것들은 오프라인에서 고정밀로 수집되고, 플리트의 실시간 피드백을 통해 지속적으로 업데이트된다.

4절: 시뮬레이션 파이프라인——Tesla의 데이터 플라이휠에 대한 Waymo의 대응

Waymo의 시뮬레이션 엔진은 공식적으로 “Carcraft”라고 불린다. 핵심 구성 요소는 다음과 같다.

에이전트 행동 모델: Waymo의 실제 무인 주행 마일을 학습한 모델로, 시뮬레이션에 현실적인 인간 운전자·자전거 이용자·보행자를 채우는 데 사용된다.

센서 시뮬레이션: LiDAR·카메라·레이더 신호를 물리 기반 모델로 시뮬레이션——LiDAR는 레이 트레이싱, 카메라는 뉴럴 래디언스 필드(est.) 적용.

시나리오 추출: 차량 로그에서 실제 세계의 엣지 케이스를 추출하여 태그를 달고 대규모로 시뮬레이션에 삽입. 이것이 실제 세계의 저확률 이벤트를 고밀도 훈련 신호로 변환하는 핵심 메커니즘이다.

적대적 테스트: 시뮬레이션 시스템이 실제 데이터에서는 극히 드문 최악의 시나리오를 능동적으로 생성하여, 시스템이 최악 조건에서 어떻게 행동하는지 강제 테스트한다.

Waymo는 매일 수십억 마일의 시뮬레이션 주행을 실행한다고 보고되고 있다(est.). 실제 무인 주행 1마일이 추출 파이프라인을 통해 약 1,000마일의 시뮬레이션 주행을 생성한다고 알려져 있다(est.). 이것이 Tesla의 50~60억 마일 교사 지도 실제 주행 데이터에 대한 Waymo의 비대칭적 대응이다——실제 주행 마일은 더 적지만, 고품질의 목적 지향 시뮬레이션으로 보완한다. 시뮬레이션이 제공할 수 있는 것은 실제 도로 데이터에서 대량 수집할 수 없는 것——임의 밀도로의 엣지 케이스 생성과 임의 가상 상황에 대한 반사실적 테스트다.

5절: 도시 진입 6단계 프로세스

1단계: 매핑 캠페인. 전용 매핑 차량이 LiDAR·카메라·GPS 지상 진실 데이터를 수집한다(도시당 추정 3~6개월).

2단계: 주석 및 의미론적 레이블링. 맵 특징에 수작업 레이블 부여——차선 경계·신호등·횡단보도·정지 표지판 등. 이 단계가 세계 모델링 계층이 의존할 수 있는 의미 지도의 품질을 결정한다.

3단계: 시뮬레이션 캠페인. 해당 도시 특유의 기하학과 교통 패턴에 특화된 엣지 케이스를 시뮬레이션으로 생성한다. 다른 도시에서 훈련된 범용 모델이 이 단계에서 새 도시의 특성에 적응·테스트된다.

4단계: 쉐도우 모드·유인 감독 테스트. Waymo 차량이 안전 요원 감독 하에 새 도시에서 시험 주행을 하며, 모든 인적 개입(해제 이벤트)이 기록·분석된다. 이 단계의 데이터가 다음 단계의 안전 케이스 구축에 직접 사용된다.

5단계: 무인 운전 검증. 해당 도시의 운행 조건에 대해 안전성을 증명하는 체계적인 안전 케이스 구축(추정 3~6개월).

6단계: 상업 런칭. 지오펜스가 설정된 서비스 지역에서 24시간 365일 운행 시작.

매핑 시작부터 상업 런칭까지의 추정 총 기간은 도시당 12~24개월이다. 이 타임라인이 Waymo와 Tesla 경쟁상의 비대칭성의 핵심이다——Tesla FSD는 Tesla가 주행한 적 있는 도로라면 어디서든 동작 가능하지만, Waymo의 모든 서비스 노선에는 사전에 위 6단계 완료가 필요하다.

6절: 두 가지 아키텍처 철학의 합리적 도박

Waymo의 아키텍처는 의도적인 공학적 선택이다——확장은 더 느리고 규모화 난이도는 더 높지만, 형식적 검증 가능성과 매핑된 지역에서의 주행 마일당 안전성에서 구조적 우위를 갖는다. Tesla의 엔드투엔드 접근 방식은 대응하는 도박이다——확장 속도는 빠르고 형식적 검증 난이도는 높지만, 이론적으로는 훨씬 더 넓은 지리적 범위를 커버할 가능성이 있다.

두 선택 모두 각 회사의 출발점과 자본 구조를 고려하면 합리적이다. Waymo는 구글의 연구 문화와 Alphabet의 장기 자본에서 성장하여 검증 가능성을 최우선 순위로 삼는 엔지니어링 문화를 형성했다. Tesla는 수백만 대의 판매 차량이라는 데이터 플라이휠을 출발점으로 신속한 지리적 커버리지를 최우선으로 삼는 엔지니어링 노선을 구축했다.

시리즈 다음 편에서는 Waymo 6세대 차량 하드웨어 아키텍처를 집중 분석하여, 새로운 센서 스위트 설계가 이 6계층 소프트웨어 스택의 각 계층에 구체적으로 어떤 영향을 미치는지를 살펴볼 것이다.

이 시리즈에 대하여

이 기사는 물리적 AI 벤치마크 시리즈 42편으로, Waymo Driver의 6계층 소프트웨어 아키텍처를 기술적으로 해설한다. 이 시리즈는 자율주행·로봇·산업 자동화 등 물리적 AI 시스템의 실제 상업 운용에서의 검증 가능한 기술적 진전을 지속 추적한다. “(est.)”로 표시된 모든 데이터는 Waymo의 공식 발표가 아닌, 공개 정보·규제 신청 서류·서드파티 애널리스트 보고서를 출처로 하는 추정치다.