2026-06-17 — views

자율주행 센서 스택 지수 — Tesla 카메라 단독 vs. Waymo LiDAR: 인지 아키텍처 경쟁

자율주행 센서 스택 비교——Tesla 카메라 단독 방식 vs. Waymo LiDAR 융합——비용, 악천후 내구성, 설계 철학 차이를 분석한다.

센서 스택은 자율주행 아키텍처의 첫 번째 갈림길

자율주행 시스템이 경로를 계획하거나 조작을 실행하기 전에, 먼저 주변 세계를 인지해야 한다. 이 인지 파이프라인을 지원하는 센서는 사소한 구현 세부 사항이 아니다——그것들이 전체 자율주행 스택의 비용, 지리적 적용 범위, 악천후 내구성, 그리고 안전 상한을 결정한다.

업계는 두 진영으로 분리되었다. Waymo, Mobileye, Cruise, Zoox는 모두 LiDAR, 레이더, 카메라를 중복적인 센서 퓨전 아키텍처로 통합한 시스템을 구축했다. Tesla는 정반대의 철학을 추구했다: 카메라만, LiDAR 없음, 초음파 센서 없음(2022년에 제거됨), 그리고 업계 최대 규모의 영상 학습 데이터셋을 기반으로 한다.

이것은 피지컬 AI 벤치마크 시리즈의 여섯 번째 기사다. 이전 기사들은 운영 규모 확대, 휴머노이드 로봇, 자율주행 규제, 투자 자본, 컴퓨팅 칩을 다루었다. 이 기사는 인지 레이어를 상세히 분석한다——센서 하드웨어, 비용 영향, 그리고 두 아키텍처 각각의 핵심 논거.

제1절 — 센서 스택 주요 비교표

아래 표는 2026년 중반 기준으로 자율주행 업계에서 가장 많이 인용되는 다섯 가지 센서 아키텍처를 정리한 것이다. 카메라 수, LiDAR 유닛, 레이더 모듈은 공개 사양 또는 제조사 발표를 기반으로 한다.

회사	카메라	LiDAR	레이더	초음파	컴퓨팅	아키텍처
Waymo (6세대)	29	4기 (360° Honeycomb + 근거리)	6	미공개	자체 ASIC (Waymo Driver 칩)	완전 센서 퓨전, 무인 L4
Tesla (HW4)	8 (360° + 전방 망원)	0	1 (일부 모델에서 선택 사양)	0 (2022년 제거)	듀얼 FSD 칩	카메라 단독, 엔드투엔드 신경망
Mobileye (EyeQ Ultra)	카메라 + LiDAR 옵션	선택 사양	있음	없음	EyeQ Ultra ASIC	REM 매핑 레이어, 확장 가능한 퓨전
Cruise (중단됨)	40	5	16	있음	자체 ASIC	최고 중복성 스택
Zoox (Amazon)	8	4	4	없음	자체 컴퓨팅	양방향 차량, 완전 퓨전

표 해석: Waymo의 29개 카메라는 전방위 360도 주변 커버리지에 전문적인 근거리 카메라를 더한 것으로, Tesla의 8개를 크게 웃돈다. Cruise의 스택은 GM이 2023년 말에 프로그램을 중단하기 전 가장 높은 중복성을 가진 상업용 AV 아키텍처였다. Zoox의 양방향 차량 설계(앞뒤 구분 없이 어느 방향으로도 동일하게 주행)는 양쪽 끝에 대칭적인 센서 커버리지를 필요로 한다.

Tesla의 LiDAR 0개는 의도적인 설계 선택이지 비용 절감이 아니다. 듀얼 FSD 칩은 순수 카메라 기반 추론에서 1,000 TOPS 이상(Tesla 내부 벤치마크 방법론)을 제공한다. 2022년 초음파 센서 제거도 같은 방향의 결정이다——두 결정 모두 카메라 데이터로 훈련된 신경망이 센서 퓨전 방식과 동등하거나 더 나은 안전성을 달성할 수 있다는 동일한 아키텍처적 베팅을 반영한다.

제2절 — 핵심 논쟁: 카메라 단독 vs. 센서 퓨전

두 아키텍처는 자율주행 안전성에 대해 근본적으로 다른 가설을 나타낸다. 어느 쪽도 명백히 틀린 것은 아니다——하지만 전제 가정의 차이가 너무 커서 각 회사가 자신의 철학을 중심으로 완전히 다른 엔지니어링 조직을 구축했다.

Tesla의 카메라 단독 논거

인간의 도로는 인간의 눈을 위해 설계되었다. 모든 교통 표지판, 차선 표시, 신호등, 보행자 신호는 움직이는 차량에서 인간의 눈으로 읽을 수 있도록 설계되었다. 인간의 시각을 위해 설계된 도로에서 주행하는 것이 목표라면, 카메라가 올바른 센서다——도로 인프라가 설계 기준으로 삼은 것과 동일한 정보 소스를 생성하는 센서.

비용 계산. LiDAR 유닛은 현재 제조 규모에서 차량당 500달러에서 5,000달러 사이의 비용이 든다. 카메라 센서는 개당 몇 달러에 불과하다. 수백만 대에 걸쳐 이 비용 격차는 3만 달러 이하의 소비자 제품과 차량 비용을 승차 수익으로 상각해야 하는 로보택시 서비스의 차이를 만든다.

플릿 데이터 규모. 600만 대 이상의 Tesla 플릿은 실제 세계의 엣지 케이스에서 지속적인 카메라 영상을 생성한다: 특이한 차선 구성, 공사 구간, 예측 불가능한 보행자, 긴급 차량, 홍수, 강한 눈부심. LiDAR를 장착한 어떤 플릿도 이 데이터 볼륨에 필적할 수 없다. 훈련 우위는 시간이 지남에 따라 복리로 쌓인다——플릿이 새로운 엣지 케이스를 만날 때마다 다른 모든 Tesla 차량의 모델이 개선된다.

지도 비의존적인 엔드투엔드 학습. Tesla의 Dojo 훈련 방식은 고정밀 사전 매핑된 도로 네트워크에 의존하지 않고 영상 입력에서 직접 주행 정책을 학습하는 것을 목표로 한다. 이를 통해 시스템은 사전 조사 및 매핑된 도로에만 국한되지 않고 모든 도로로 확장 가능해진다.

Waymo의 센서 퓨전 논거

LiDAR는 카메라가 제공할 수 없는 깊이를 제공한다. 카메라는 세계를 2D 투영으로 인식한다. 단일 카메라에서 3D 거리를 추정하려면 추론이 필요하다——신경망은 겉보기 크기, 그림자, 시차 같은 시각적 단서에서 깊이를 판단하는 법을 배워야 한다. LiDAR는 비행 시간 레이저 펄스로 거리를 직접 측정하여 조명 조건에 관계없이 정밀한 3D 포인트 클라우드를 생성한다. 아무리 많은 신경망 훈련도 단안 깊이 추정의 근본적인 모호성을 없앨 수 없다.

레이더는 카메라가 대처할 수 없는 조건을 투과한다. 밀리미터파 레이더는 카메라 화질을 저하시키는 비, 눈, 안개를 통과한다. 렌즈가 결로로 흐려지거나 폭우로 가려진 카메라는 의미 있는 신호를 잃는다. 레이더는 그렇지 않다. 악천후에서 레이더가 제공하는 구조적 장면 정보——큰 물체가 어디에 있는지, 얼마나 빠르게 움직이는지——는 카메라 시스템이 잃게 되는 정보다.

무인 운전에 필요한 중복성. 안전 운전자가 없는 로보택시는 옆에 세워두고 인간에게 인계를 요청할 수 없다. 한 종류의 센서가 고장났을 때——카메라 렌즈 파손, 얼음으로 막힌 LiDAR 유닛, 파편에 맞은 레이더 모듈——시스템은 나머지 센서로 안전하게 계속 운행해야 한다. 완전 무인 L4 운행에 필요한 안전 마진은 인간이 모니터링하고 개입할 수 있는 L2 ADAS보다 높다.

안전 표준은 중복성을 선호한다. ISO 21448(SOTIF——의도된 기능의 안전성)과 더 넓은 L4 규제 환경은 암묵적으로 여러 독립적인 감지 모달리티를 가진 아키텍처를 지지한다. 규제 기관은 단일 센서가 고장났을 때 시스템이 어떻게 안전하게 저하되는지 입증하도록 요구할 수 있다. 카메라 단독 시스템에는 카메라 고장 시 대체 수단이 없다.

제3절 — 차량당 센서 스택 비용 추정

두 아키텍처 간의 비용 격차는 이 논쟁에서 가장 구체적인 숫자다. 아래 추정은 2026년 기준으로 입수 가능한 업계 데이터와 애널리스트 추정을 기반으로 한 대량 생산 비용(소매가나 교체 비용이 아님)을 반영한다.

구성 요소	Waymo 6세대 (추정)	Tesla HW4 (추정)
카메라 어레이	약 200달러	약 150달러
LiDAR (4기)	약 3,000~5,000달러	0달러
레이더	약 300달러	약 100달러 (선택 사양)
컴퓨팅 (ASIC / FSD 칩)	약 500달러	약 400달러 (듀얼 칩)
센서+컴퓨팅 합계	약 4,000~6,000달러	약 650~700달러

이 비용 격차가 비즈니스 모델에 미치는 의미. Waymo는 라이드헤일링 서비스——Waymo One 로보택시——를 운영하며, 각 차량이 운용 수명 동안 지속적인 수익을 창출하여 하드웨어 비용을 상각한다. 이 모델은 차량이 연간 수만 마일을 주행하고 승차 요금을 부과할 경우 4,000~6,000달러의 센서 스위트를 정당화할 수 있다.

Tesla의 Cybercab은 3만 달러 이하의 목표 가격을 설정했으며, 5,000달러의 LiDAR 스택과 양립할 수 없다. 카메라 단독 아키텍처는 단순한 철학적 입장이 아니다——그것은 Tesla가 구축하려는 소비자 차량 비즈니스 모델의 필수 전제 조건이다. Waymo의 센서 스택을 갖춘 Cybercab은 35,000~40,000달러 이상의 가격이 필요하여 대중 시장 로보택시의 명제가 완전히 사라진다.

제4절 — 날씨와 지리적 제약

센서 아키텍처 선택이 시스템이 신뢰할 수 있게 작동할 수 있는 장소를 결정한다. 아래 표는 각 조건에서 예상되는 성능 특성을 매핑한다——이것들은 아키텍처적 경향이며 특정 시스템에 대한 보장된 측정 결과가 아니다.

조건	카메라 단독 (Tesla)	LiDAR+카메라 (Waymo)
강한 햇빛	양호	양호
야간 (도심, 조명 있음)	양호 (HW4 저조도 최적화)	우수
폭우	저하됨	양호 (레이더 폴백)
짙은 안개	현저히 저하됨	보통 (LiDAR 안개 산란)
강설 (도로 표시 가려짐)	현저히 저하됨	보통
센서 폐색 (렌즈 오염/결빙)	단일 고장점 위험	중복 폴백 사용 가능

이 표가 업계의 지리적 선택을 설명한다. Waymo는 애리조나주 피닉스에서 상업 서비스를 시작하고 샌프란시스코와 로스앤젤레스로 확장했다——모두 온화한 기후, 연간 일조량이 높고 강설이 거의 없는 시장이다. 피닉스의 폭우는 드물다. 이것은 우연이 아니다——LiDAR와 레이더가 있더라도 짙은 안개와 결빙은 현재 AV 시스템에 여전히 어려운 조건이다.

Tesla는 텍사스주 오스틴을 첫 번째 로보택시 시장으로 발표했다(2025년 예정). 오스틴의 기후는 건조한 더위와 낮은 강수량이 특징으로, 미국의 고위도 도시들에 비해 더 건조하다. 카메라 단독 아키텍처는 건조하고 밝은 조건에서 더 나은 성능을 발휘한다. 시애틀이나 미니애폴리스 대신 오스틴을 선택한 것은 카메라 단독 인지의 운용 포락선 제약을 인정한 것이다.

제5절 — 수렴 논거

일부 분석가들은 두 진영이 시간이 지남에 따라 수렴할 것이라고 주장한다. 논거는 양방향으로 성립한다.

Tesla가 LiDAR를 추가하는 이유. LiDAR 제조 비용은 2017년 이후 지속적으로 하락했다. Luminar Technologies는 대량 생산 규모에서 유닛당 100달러 이하의 비용 목표를 공개적으로 발표했다. Innoviz Technologies와 Hesai도 유사한 로드맵을 갖고 있다. LiDAR가 유닛당 50~100달러로 떨어지면——중급 카메라 모듈 비용과 거의 같은 수준——LiDAR에 반대하는 비용 논거가 크게 약화된다. 소비자 차량에 LiDAR를 추가하지 않더라도 Tesla는 로보택시 플릿을 위해 LiDAR를 채택할 수 있다.

Tesla가 LiDAR를 추가하지 않는 이유. Tesla의 전체 훈련 파이프라인은 비전에 최적화되어 있다. Dojo 훈련 인프라는 비디오를 처리한다. 엔드투엔드 신경망 정책은 카메라 데이터로 훈련된다. 플릿 데이터 수집 시스템은 카메라 영상을 수집한다. LiDAR를 추가하는 것은 단순히 차량에 센서를 달아두는 것이 아니다——LiDAR 포인트 클라우드를 수집하는 데이터 파이프라인 재구축, 융합 데이터로 모델 재훈련, 추론 스택 재설계가 필요하다. 이것은 수년에 걸친 엔지니어링 프로그램이지 제품 업데이트가 아니다.

가장 가능성 높은 결과. 두 가지 접근 방식은 각각 개선을 계속할 것이다. 카메라 기반 시스템은 더 큰 훈련 데이터셋, 더 나은 신경 아키텍처, 고해상도 센서의 혜택을 계속 받을 것이다. LiDAR 기반 시스템은 더 저렴하고, 더 긴 사거리를 가지며, 고해상도 유닛의 혜택을 받을 것이다. 비용 격차는 좁아지겠지만 소비자 차량에 관련된 제조 규모에서는 완전히 사라지지 않을 수 있다.

벤치마크 배경: 피지컬 AI 시리즈 여섯 번째 기사

이 트래커는 피지컬 AI를 다각도로 다루는 시리즈의 여섯 번째 기사다:

운영 규모 확대 지표 — 생산 대수, 배포 규모, 주행 마일리지
휴머노이드 로봇 기술 — 하드웨어 세대, 손재주 벤치마크, 기반 모델 능력
AV 안전성과 규제 — 캘리포니아 DMV 데이터, NHTSA 사고 보고, 주 허가 지도
투자와 밸류에이션 — 자본 흐름, 자금 조달 라운드, 내재 밸류에이션
컴퓨팅과 실리콘 — 추론 칩, 훈련 클러스터, NVIDIA 공급 제약
센서 스택과 인지 아키텍처 — 이 기사

센서 아키텍처 문제는 비용, 안전성, 확장성의 교차점에 있다. 그것은 단일 시연이나 단일 사고로 해결될 문제가 아니다. 플릿 데이터, 규제 결정, 그리고 궁극적으로 어떤 아키텍처가 허용 가능한 비용으로 실제 주행 조건의 완전한 분포를 처리할 수 있는지에 의해 해결될 것이다. 그 해답은 아직 진행 중이다.