2026-06-18 — views

Tesla FSD 엔드투엔드 아키텍처——v12 신경망 내부 해부, 규칙에서 학습으로의 근본적 전환

Tesla FSD v12는 30만 줄의 규칙 기반 C++를 단일 엔드투엔드 신경망으로 교체하고 수십억 마일의 감독 학습 주행 영상으로 훈련시켰다.

피지컬 AI 벤치마크 시리즈 제50편 — 아키텍처 심층 분석

소프트웨어 아키텍처는 자율주행 시스템이 도달할 수 있는 상한선을 결정한다. 이 시리즈 제42편에서는 Waymo의 모듈형 6계층 스택——인지, 세계 모델링, 예측, 계획, 제어가 명확히 분리되고 각 계층이 정의된 입출력을 갖는 시스템——을 해설했다. Tesla FSD v12는 정반대의 공학적 베팅을 구현한다: 이러한 모든 계층을 단일 학습형 신경망으로 통합하고, 카메라 영상을 입력으로 삼아, 수십억 마일의 인간 운전 행동으로 네트워크가 스스로 운전을 배울 때까지 훈련하는 접근이다. 2024년 초에 공개 배포된 이 아키텍처적 전환은 DARPA Grand Challenge 이후 자율주행 산업에서 가장 결정적인 공학적 결정 중 하나다.

이하에서 (추정)으로 표시된 모든 수치는 공개 공시, 공학적 분석, 업계 보고서에 기반한 추정치다. 독립적으로 검증되지 않았으며 정확한 수치가 아닌 방향성 참고 자료로 취급해야 한다.

제1절 — 아키텍처 전환: v11에서 v12로

v11 및 이전 버전의 FSD는 모듈형 시스템이었다. 인지 모듈이 물체를 감지하고 위치를 추정하고, 차선 감지 모듈이 도로 형상을 식별하고, 경로 계획이 실행 가능한 궤적을 계산하고, 제어 모듈이 그 궤적을 스티어링, 가속, 제동 명령으로 변환했다. 각 모듈은 C++로 작성되고 수작업으로 코딩된 규칙을 포함했다. Tesla AI 전 디렉터 Andrej Karpathy는 2022년 AI Day에서 이 코드베이스가 약 30만 줄의 C++로 성장했음을 공개했다. 규칙 기반 방식에는 근본적인 확장 문제가 있었다: 새로운 엣지 케이스마다 새로운 규칙이 필요한데, 공도상의 엣지 케이스는 사실상 무한하다.

FSD v12는 이 전체 파이프라인을 단일 엔드투엔드 신경망으로 교체했다. 카메라 영상이 들어가고 운전 동작이 나온다. 아래 표는 그 전환의 모든 차원을 보여준다.

차원	FSD v11 및 이전	FSD v12 (엔드투엔드)
핵심 접근	모듈형: 인지, 차선 감지, 경로 계획, 제어——수작업으로 코딩된 규칙을 가진 독립 모듈	엔드투엔드: 카메라에서 직접 스티어링, 가속, 제동으로의 단일 학습 정책
코드 줄 수	약 30만 줄의 C++ (Karpathy, 2022 AI Day)	대폭 감소——대부분의 동작이 작성되는 것이 아니라 학습됨 (추정)
훈련 신호	각 모듈 경계에서의 인간 레이블——물체 경계 박스, 차선 어노테이션 등	인간 운전자 동영상에서의 모방 학습——정책이 인간 운전자의 행동을 복제
일반화 능력	엣지 케이스에서 규칙이 깨짐; 비정상적인 교차로 형상이 수작업 로직을 실패시킬 수 있음	신경망은 훈련 데이터에 있는 형상에 일반화
디버깅 방법	모듈별: 어느 계층이 실패했는지 식별——인지, 예측, 또는 계획	블랙박스: 특정 실패가 왜 발생했는지 격리하기 어려움
개선 메커니즘	엔지니어가 더 많은 규칙 작성; 유한한 시나리오 집합을 넘어 확장하기 어려움	더 많은 데이터가 더 나은 정책을 생성; 플리트 크기에 따라 자동으로 확장
배포 범위	FSD v11 = 단일 스택 (고속도로와 도시 통합, 여전히 규칙 기반)	FSD v12 = 모든 운전 시나리오에 걸친 엔드투엔드 신경 정책

이 전환의 실질적 효과는 즉각적이고 가시적이었다. FSD v11을 사용해본 사용자들은 v12의 운전 행동이 질적으로 다르다고 보고했다——더 부드럽고, 더 인간적이며, 비보호 좌회전과 복잡한 교차로를 더 잘 처리한다——엔지니어들이 새로운 규칙을 추가해서가 아니라, 네트워크가 바로 그런 시나리오를 실행하는 인간 운전자들로부터 훈련받았기 때문이다.

제2절 — 엔드투엔드 네트워크의 작동 방식

Tesla는 AI Day와 공학 발표에서 FSD v12의 핵심 아키텍처를 공개했다. 이하는 공개된 구성 요소를 설명하며 (추정)으로 표시된 수치는 공개 정보에서 추론된 것이다.

입력

FSD 시스템은 8개의 카메라를 사용한다: 전방, 전방 좌, 전방 우, 후방, 후방 좌, 후방 우, 협각 전방, 광각 전방. 각 카메라는 약 120만 화소(추정)를 촬영한다. 중요한 점은 네트워크가 단일 프레임을 처리하는 것이 아니라——비디오 스트림을 처리하며, 단일 정지 이미지로는 얻을 수 없는 움직임, 시차 깊이, 시간적 맥락을 포착하기 위해 각 카메라에서 여러 프레임을 동시에 수집한다는 것이다. 시간적 맥락은 이 아키텍처에서 선택 사항이 아니다; 구조적으로 필수적이다. 네트워크는 어느 한 순간의 정지 화면만 보는 것이 아니라 장면이 어떻게 전개되는지를 봐야 한다.

구형 Tesla 하드웨어에 탑재된 레이더는 FSD가 카메라 우선으로 이동함에 따라 우선순위가 낮아졌다. 일부 시장의 신형 생산 차량에서는 초음파 센서가 제거되었다. FSD v12는 추론 계층에서 사실상 카메라 전용 시스템이다.

아키텍처: 점유 네트워크와 신경 플래너

구성 요소	기능
비디오 인코더	다중 카메라 비디오 스트림을 처리하여 시공간 특징 표현 생성——“점유 네트워크”, 즉 어느 공간이 점유되고 어디가 비어 있는지를 인코딩하는 3D 격자
세계 모델	점유 네트워크가 3D 세계 형상, 다른 차량, 보행자, 동적 장면 요소를 암묵적으로 모델링——레이블이 붙은 물체가 아니라 학습된 공간 패턴으로
신경 플래너	인코딩된 세계 표현을 받아 궤적——차량이 따를 웨이포인트 시퀀스——을 출력
컨트롤러	액추에이터 수준에서 웨이포인트를 스티어링 각도, 가속, 제동 명령으로 변환

v12의 핵심 통찰은 세계 모델링과 계획 사이의 경계가 명시적이지 않다는 것이다. Waymo의 6계층 스택에서는 각 경계가 설계된 인터페이스다. Tesla의 엔드투엔드 네트워크에서는 “장면 이해”와 “행동 결정” 사이의 분리가 학습된 표현 안에 암묵적으로 존재한다. 네트워크는 인간 운전자가 행동할 때 무엇에 주목하는지 관찰함으로써 운전에 무엇이 중요한지를 스스로 결정한다. 의미적 레이블링 요구 사항이 없다; 네트워크는 운전 행동에 대한 경사 하강법을 통해 자체적인 장면 표현을 찾는다.

제3절 — 훈련: 플리트 규모의 모방 학습

규칙에서 학습으로의 아키텍처적 전환은 그에 상응하는 훈련 방식의 전환을 필요로 했다. 개별 모듈의 감독 학습에는 레이블이 붙은 경계 박스, 차선 어노테이션, 명시적인 의미 지도가 필요했다——이 모두는 인간 어노테이터가 동영상을 프레임별로 검토할 것을 요구했다. FSD v12의 엔드투엔드 훈련에는 이것이 필요 없다. 훈련 신호는 인간의 운전 행동이다: 각 순간에 인간 운전자가 가한 스티어링 각도, 가속 수준, 제동 압력.

훈련 구성 요소	상세 설명
데이터 소스	FSD가 활성화된 600만 대 이상의 Tesla 차량에서의 영상; 인간 운전자의 동작이 감독 신호
레이블 유형	인간 운전 동작——스티어링, 가속, 제동——물체 경계 박스나 차선 어노테이션이 아님
규모	수십억 개의 동영상 프레임; 수백만 개의 주행 클립 (추정)
데이터 큐레이션	쉐도우 모드가 제어권을 가져가지 않고 인간 운전자와 병렬로 FSD 정책을 실행하여, 정책이 인간 행동에서 이탈했을 클립을 식별; 이러한 엣지 케이스가 훈련에서 우선순위를 받음
컴퓨팅	Dojo 슈퍼컴퓨터와 NVIDIA H100 클러스터; Tesla는 총 훈련 컴퓨팅 예산을 공개하지 않음 (추정: 총액 수십억 달러)
검증	실제 세계 이탈 접관율; 시뮬레이션 회귀 테스트; 폐쇄 코스 테스트

이 접근의 확장 우위는 구조적으로 내재되어 있다. 인간이 운전하고 FSD가 쉐도우 모드에서 작동하는 상태로 주행하는 모든 Tesla 차량이 자동으로 훈련 데이터를 생성한다. 인간 어노테이터의 병목이 없다. Tesla의 플리트가 더 많은 마일을 주행할수록 훈련 데이터셋이 비례하여 증가하고 정책이 개선된다. 이것이 Tesla AI 팀이 핵심 경쟁 해자로 묘사해온 “데이터 플라이휠”이다: 도로 위의 차량이 많을수록 데이터가 많아지고, 데이터가 많을수록 정책이 좋아지고, 정책이 좋을수록 더 많은 사람이 FSD를 사용하고, FSD를 사용하는 사람이 많을수록 훈련 데이터를 생성하는 차량이 더 많아진다.

제4절 — v13과 v14: v12 이후의 진화

FSD v12는 엔드투엔드 모방 학습이 감독형 자율주행에 효과적임을 증명했다. 이후 버전들은 특정 약점을 개선하고 지리적 범위를 확장했다.

버전	주요 개선 사항	시기
v12.3	첫 공개 엔드투엔드 릴리스; 도시 주행 시나리오에서 v11 대비 큰 품질 향상; 팬텀 브레이킹 대폭 감소	2024년 초
v12.5	교차로 처리 개선; 팬텀 브레이킹 추가 감소; 고속도로 합류 개선	2024년 중반
v13	다중 트립 기억——차량이 특정 경로의 반복 사용 후 해당 경로를 학습; 고속도로 합류 행동 개선; v12 대비 이탈 접관율 약 30–50% 감소 (추정)	2024년 말
v13.2	추가 미국 주로 지리적 범위 확장; 캐나다 제한적 배포; 보행자 및 자전거 이용자 처리 개선	2025년 초
v14 (추정)	고속도로 일반화 개선; 도시 품질 지속적 향상; 유럽 제한적 배포 준비	2025–2026년 (추정)

FSD 버전별 이탈 접관율 추세는 아키텍처 전환의 영향을 반영한다. 추정치는 Tesla 공개 공시와 캘리포니아 DMV 자율주행 차량 보고서 데이터에 기반하며, 운전자 개입 요건과 보고 방법의 변화로 버전 간 직접 비교는 복잡하다.

시대	1,000마일당 추정 중대 이탈 접관 횟수	비고
v11 시대	약 0.09 (추정)	규칙 기반 시스템; 캘리포니아 DMV 신고서에 기록
v12 시대	약 0.05 (추정)	첫 엔드투엔드 배포; 대폭 감소
v13 시대	약 0.03 (추정)	엔드투엔드 기반 위에서 지속적 개선
인간 운전자 동등	약 0.002 (추정)	NHTSA 데이터 기반; FSD 지표와 직접 비교 불가

v13의 약 0.03과 인간 성능의 약 0.002 사이에는 아직 약 1자리 수의 차이가 있다. 이 격차는 업계의 핵심 미해결 문제를 정의한다: 엔드투엔드 접근이 지속적으로 확장될 때 이 격차를 완전히 좁힐 수 있는가——아니면 진정으로 감독 없는 로보택시 배포에 필요한 10억 마일에 1회의 신뢰성에 도달하기 전에 정체에 부딪히는가?

제5절 — 엔드투엔드 대 모듈형: 미해결된 논쟁

Tesla의 v12 아키텍처는 엔드투엔드 모방 학습이 유능한 감독형 운전 정책을 만들어낼 수 있음을 증명했다——FSD는 아키텍처 전환 이후 모든 측정 가능한 지표에서 크게 개선되었다. 그러나 검증된 안전 수준에서의 감독 없는 완전 자율주행으로 확장될 수 있는지는 아직 해결되지 않았다. Tesla의 접근과 Waymo의 모듈형 아키텍처 사이의 논쟁은 오늘날 자율주행 공학에서 가장 핵심적인 지적 논쟁이다.

주장	Tesla의 베팅	Waymo의 반론
규모가 안전으로	더 많은 감독형 마일과 더 좋은 모델이 모든 시나리오에 걸친 창발적 안전 행동을 만들어낼 것	완전 자율주행 수준의 안전성은 통계적 개선이 아닌 형식적 검증을 필요로 함
일반화 능력	충분히 다양한 시나리오로 훈련된 엔드투엔드 네트워크는 새로운 환경에 일반화됨	HD 지도와 명시적 제약을 가진 모듈형 시스템은 신경망이 재정의할 수 없는 경성 행동 경계를 제공
해석 가능성	시스템이 규모에서 실증적으로 작동한다면 해석 가능성은 필요 없음	해석 가능성은 규제 인증, 책임 귀속, 체계적 실패 조사에 필요
데이터 효율성	소비자 플리트의 수십억 감독형 마일이 전용 로보택시 데이터의 부재를 보완	고품질 완전 자율 마일과 목표화된 시뮬레이션이 비감독 소비자 플리트 데이터보다 효율적

두 입장 모두 명백히 틀린 것은 아니다. Tesla의 아키텍처는 감독형 운전 지표에서 더 빠른 개선 궤적을 만들어냈다. Waymo의 아키텍처는 더 강한 검증된 안전 기록을 가진 실증된 완전 자율 상업 서비스를 만들어냈다. 이것들은 아직 직접 비교할 수 있는 성과가 아니다——Tesla는 규모에서 완전히 무인인 상업 서비스를 운영하지 않았고, Waymo는 FSD의 사용성에 근접하는 소비자 대상 감독형 운전 제품을 실증하지 않았다.

이 비교가 명확히 하는 것은 각 회사가 하고 있는 베팅의 성격이다: Tesla는 규모와 아키텍처 수렴이 안전으로 수렴한다고 베팅한다. Waymo는 명시적 구조와 검증이 안전의 전제조건이며 규모만으로는 대체할 수 없다고 베팅한다. 현재의 발전 궤적으로 2027년이나 2028년까지는 이 베팅을 실증적으로 평가하기에 충분한 데이터가 양쪽에 모일 것이다——그것은 오늘 만들어지는 어떤 예측보다 더 흥미로운 결과다.

출처: Tesla AI Day 2022 FSD 아키텍처 개요 (tesla.com/AI); 캘리포니아 DMV 자율주행 차량 이탈 보고서 (dmv.ca.gov); Andrej Karpathy Tesla AI Day 2021 (youtu.be/j0z4FweCy4M); Tesla FSD 버전 릴리스 노트 (tesla.com/support/car-software-updates). (추정)으로 표시된 모든 수치는 공개 데이터, 공학적 분석, 업계 보고서에 기반한 추정치이며, 독립적으로 검증되지 않았고 1차 소스 데이터와 다를 수 있다.