2026-06-18 — views
Tesla FSD 端對端架構——v12 神經網路內部解析,從規則到學習的根本轉變
Tesla FSD v12 將 30 萬行規則式 C++ 替換為單一端對端神經網路,以數十億英里監督式駕駛影片訓練而成。
實體 AI 基準系列 第 50 篇 — 架構深度解析
軟體架構決定了自動駕駛系統的天花板。本系列第 42 篇記錄了 Waymo 的模組化六層架構——感知、世界建模、預測、規劃與控制各自明確分離,每層都有定義好的輸入與輸出。Tesla FSD v12 代表了截然相反的工程押注:將上述所有層次整合成單一學習式神經網路,餵入攝影機畫面,並在數十億英里的人類駕駛行為上訓練,直到網路自行學會駕駛。這項 2024 年初公開部署的架構轉變,是自 DARPA Grand Challenge 以來自動駕駛產業最具決定性的工程決策之一。
以下所有標示「(估)」的數據,為基於公開揭露、工程分析與產業報告的估算,未經獨立驗證,應視為方向性參考而非精確數字。
第一節 — 架構轉變:v11 到 v12
v11 及更早版本的 FSD 是模組化系統。感知模組偵測物件並估算位置;車道偵測模組識別道路幾何;路徑規劃計算可行軌跡;控制模組將軌跡轉換為方向盤、油門與煞車指令。每個模組均以 C++ 撰寫並包含手工編寫的規則。Tesla AI 前任總監 Andrej Karpathy 於 2022 年 AI Day 披露,此程式碼庫已成長至約 30 萬行 C++。規則式系統有一個根本的擴展瓶頸:每個新的邊緣情況都需要新的規則,而公路上的邊緣情況幾乎是無窮無盡的。
FSD v12 以單一端對端神經網路取代了整個管線。輸入攝影機畫面,輸出駕駛動作。下表映射了這項轉變的每個維度。
| 維度 | FSD v11 及更早 | FSD v12(端對端) |
|---|---|---|
| 核心方式 | 模組化:感知、車道偵測、路徑規劃、控制——各自獨立的手工規則模組 | 端對端:攝影機直接到方向盤、油門、煞車的單一學習策略 |
| 程式碼行數 | 約 30 萬行 C++(Karpathy,2022 AI Day) | 大幅減少——大多數行為是學習而來,而非編寫(估) |
| 訓練信號 | 每個模組邊界的人工標注——物件邊界框、車道線標注等 | 從人類駕駛影片進行模仿學習——策略複製人類駕駛員的行為 |
| 泛化能力 | 規則在邊緣情況下容易失效;不尋常的路口幾何可能破壞手工邏輯 | 神經網路可泛化至訓練資料中出現的幾何形狀 |
| 除錯方式 | 逐模組:找出哪個層次失敗——感知、預測或規劃 | 黑盒:難以隔離特定失敗發生的原因 |
| 改進機制 | 工程師撰寫更多規則;難以擴展至有限情境之外 | 更多資料產生更好的策略;隨車隊規模自動擴展 |
| 部署範圍 | FSD v11 = 單一堆疊(高速公路與城市合併,仍為規則式) | FSD v12 = 端對端神經策略覆蓋所有駕駛場景 |
這項轉變的實際效果立竿見影。曾使用 FSD v11 的用戶回報 v12 的駕駛行為有質的不同——更流暢、更像人類、更善於處理無保護左轉和複雜路口——不是因為工程師加入了新規則,而是因為網路已從執行這些場景的人類駕駛員學習。
第二節 — 端對端網路如何運作
Tesla 在其 AI Day 及工程演講中揭露了 FSD v12 的核心架構。以下描述已公開的組件;標示「(估)」的數據為從公開揭露推斷。
輸入
FSD 系統使用八顆攝影機:前方、前左、前右、後方、後左、後右、窄角前方及廣角前方。每顆攝影機約捕捉 120 萬像素(估)。關鍵在於,網路處理的不是單一幀——而是影像串流,同時攝取每顆攝影機的多個幀,以捕捉單張靜態圖像無法呈現的運動、視差深度與時間上下文。時間脈絡在此架構中不是可選功能;而是結構性需求。網路必須看到場景如何演變,而非僅看某一瞬間的靜止畫面。
較舊 Tesla 硬體上配備的雷達,隨著 FSD 轉向攝影機優先而被降低優先級。部分市場的新款生產車輛已移除超音波感測器。FSD v12 在推論層面實際上是純攝影機系統。
架構:佔用網路與神經規劃器
| 組件 | 功能 |
|---|---|
| 影像編碼器 | 處理多攝影機影像串流,產生時空特徵表示——「佔用網路」,一個編碼哪些空間被佔用、哪些空間空閒的三維網格 |
| 世界模型 | 佔用網路隱式建模三維世界幾何形狀、其他車輛、行人及動態場景元素——不以標注物件方式呈現,而是學習到的空間模式 |
| 神經規劃器 | 接受編碼後的世界表示並輸出軌跡——車輛需跟隨的一系列路點 |
| 控制器 | 在執行器層面將路點轉換為方向盤角度、油門及煞車指令 |
v12 的核心洞見在於:世界建模與規劃之間的邊界並不明確。在 Waymo 的六層架構中,每個邊界都是設計好的介面。在 Tesla 的端對端網路中,「理解場景」與「決定行動」之間的分隔隱含於學習到的表示中。網路透過觀察人類駕駛員行動時所關注的事物,自行決定什麼對駕駛重要。無需語義標注要求;網路透過對駕駛行為的梯度下降找到自己的場景表示。
第三節 — 訓練:車隊規模的模仿學習
從規則到學習的架構轉變,需要對應的訓練方式轉變。個別模組的監督式學習需要標注邊界框、車道標注及明確語義地圖——所有這些都需要人工標注員逐幀審查影片。FSD v12 的端對端訓練不需要這些。訓練信號就是人類駕駛行為:人類駕駛員在每個時刻施加的方向盤角度、油門程度及煞車力道。
| 訓練組件 | 詳細說明 |
|---|---|
| 資料來源 | 超過 600 萬輛啟用 FSD 的 Tesla 車輛的影像;人類駕駛員的動作為監督信號 |
| 標注類型 | 人類駕駛動作——方向盤、油門、煞車——而非物件邊界框或車道線標注 |
| 規模 | 數十億影像幀;數百萬個駕駛片段(估) |
| 資料篩選 | 影子模式在不接管控制的情況下,與人類駕駛員平行運行 FSD 策略,並識別策略與人類行為發散的片段;這些邊緣情況在訓練中被優先處理 |
| 算力 | Dojo 超級電腦加上 NVIDIA H100 叢集;Tesla 未披露總訓練算力預算(估計達數十億美元) |
| 驗證 | 真實世界脫離接管率;模擬回歸測試;封閉場地測試 |
此方法的擴展優勢在結構上是固有的。每輛在人類駕駛且 FSD 處於影子模式的情況下行駛的 Tesla 車輛,都會自動產生訓練資料。沒有人工標注員的瓶頸。隨著 Tesla 車隊行駛更多里程,訓練資料集按比例增長,策略也隨之改進。這就是 Tesla AI 團隊描述為核心競爭護城河的「資料飛輪」:道路上的車輛越多,資料越多;資料越多,策略越好;策略越好,更多人使用 FSD;使用 FSD 的人越多,產生訓練資料的車輛越多。
第四節 — v13 與 v14:v12 之後的演進
FSD v12 證明了端對端模仿學習能夠產出有效的監督式自動駕駛策略。後續版本針對特定弱點進行了改進,並擴展了地理覆蓋範圍。
| 版本 | 主要改進 | 時間 |
|---|---|---|
| v12.3 | 首次公開端對端發布;城市駕駛場景較 v11 有顯著品質提升;幻象煞車大幅減少 | 2024 年初 |
| v12.5 | 路口處理改進;幻象煞車進一步減少;高速公路匯流改善 | 2024 年中 |
| v13 | 多趟記憶——車輛在特定路線重複使用後學習該路線;高速公路匯流行為改進;脫離接管率較 v12 減少約 30–50%(估) | 2024 年末 |
| v13.2 | 擴展地理覆蓋至更多美國州份;加拿大有限部署;行人與騎行者處理改進 | 2025 年初 |
| v14(估) | 高速公路泛化改進;城市品質持續提升;歐洲有限部署準備 | 2025–2026(估) |
FSD 各版本的脫離接管率趨勢反映了架構轉變的影響。估算基於 Tesla 公開揭露及加州 DMV 自駕車報告資料;由於駕駛員介入要求及報告方法的變化,版本間直接比較較為複雜。
| 時代 | 每千英里估計重大脫離接管次數 | 備注 |
|---|---|---|
| v11 時代 | 約 0.09(估) | 規則式系統;見加州 DMV 申報 |
| v12 時代 | 約 0.05(估) | 首次端對端部署;大幅降低 |
| v13 時代 | 約 0.03(估) | 在端對端基礎上持續改進 |
| 人類駕駛員等效 | 約 0.002(估) | 基於 NHTSA 資料;與 FSD 指標不直接可比 |
v13 的約 0.03 與人類表現的約 0.002 之間仍有約一個數量級的差距。這個差距定義了產業的核心開放問題:端對端方法在持續擴展下,是否能完全彌合這一差距——還是在達到真正無監督機器人計程車部署所需的十億分之一英里可靠性之前就遭遇瓶頸?
第五節 — 端對端與模組化:尚未解決的辯論
Tesla 的 v12 架構證明端對端模仿學習能夠產出有效的監督式駕駛策略——FSD 在架構轉變後每項可測量指標都有顯著改進。但它是否能擴展至具備驗證安全等級的無監督全自動駕駛,目前尚無定論。Tesla 的方法與 Waymo 模組化架構之間的辯論,是當今自動駕駛工程領域最核心的智識論爭。
| 主張 | Tesla 的押注 | Waymo 的反駁 |
|---|---|---|
| 規模通往安全 | 更多監督式里程加上更好的模型,將產生覆蓋所有場景的緊急安全行為 | 達到全自動駕駛安全等級需要形式驗證,而非統計改進 |
| 泛化能力 | 在足夠多樣化場景上訓練的端對端網路,能泛化至新環境 | 具備高清地圖和明確約束的模組化系統,提供神經網路無法超越的硬性行為邊界 |
| 可解釋性 | 如果系統在規模上可驗證地有效,可解釋性並非必要 | 監管認證、責任歸屬及系統性失敗調查需要可解釋性 |
| 資料效率 | 來自消費者車隊的數十億監督式里程,彌補了缺乏專用機器人計程車資料的不足 | 高品質全自動里程和針對性模擬,比無監督消費者車隊資料更有效率 |
兩種立場都並非顯然錯誤。Tesla 的架構在監督式駕駛指標上產生了更快的改進軌跡。Waymo 的架構產生了具有更強驗證安全記錄的示範性全自動商業服務。這些尚不是直接可比的成就——Tesla 尚未在規模上運營完全無人駕駛的商業服務,而 Waymo 也尚未展示接近 FSD 易用性的面向消費者監督式駕駛產品。
此比較所闡明的,是每家公司所下的賭注性質:Tesla 押注規模與架構整合能夠收斂至安全。Waymo 押注明確結構與驗證是安全的前提,規模單獨無法替代。以目前的發展軌跡,到 2027 或 2028 年,雙方都將有足夠的資料來實證評估這一押注——這比今天做出的任何預測都更有趣。
資料來源:Tesla AI Day 2022 FSD 架構總覽(tesla.com/AI);加州 DMV 自駕車脫離接管報告(dmv.ca.gov);Andrej Karpathy Tesla AI Day 2021(youtu.be/j0z4FweCy4M);Tesla FSD 版本更新說明(tesla.com/support/car-software-updates)。所有標示「(估)」的數據為基於公開資料、工程分析與產業報告的估算;未經獨立驗證,可能與一手資料有所差異。
來源
- Tesla AI Day 2022 — FSD 架構總覽 ↗
- California DMV 自駕車脫離接管報告 — CA DMV ↗
- Andrej Karpathy — Tesla AI — AI Day 2021 ↗
- Tesla FSD 版本更新說明 — Tesla ↗