2026-06-18 — views

Physical AI 軟體堆疊架構 — Waymo 模組化管線 vs Tesla 端對端神經網路：AV 史上最關鍵技術決策

Waymo 採用可解釋模組化管線；Tesla 押注 600 萬輛車隊訓練的端對端神經網路；兩者正朝混合架構收斂。

Physical AI 基準系列第 136 篇 — Physical AI 軟體堆疊架構：Waymo 模組化管線 vs Tesla 端對端神經網路，以及為何堆疊選擇是 AV 史上最關鍵的技術決策

自動駕駛工程領域最大的未解辯論，不在於感測器、地圖或城市——而在於架構。你應該建立模組化管線（感知、預測與規劃各由獨立模型處理，每個階段都有可解釋的中間輸出）？還是建立端對端神經網路（原始感測器資料直接輸入神經網路，輸出方向盤、油門與剎車指令，完全靠真實車隊影片訓練）？Waymo 選擇了模組化；Tesla 選擇了端對端。這不僅是技術偏好——它決定了安全哲學、監管立場、除錯能力，以及最終誰能更快擴展、擴展到哪些地區。這是 Physical AI 基準系列第 136 篇。

所有標記「（估計）」的數據均源自公開披露、研究出版物、行業分析師估計及合理推斷，而非獨立驗證的第一手資料。

第 1 節 — Waymo 的模組化堆疊

Waymo 的軟體架構是一個分層模組化管線。每一層接收下層的輸出，使用一個或多個專用神經網路或規則系統進行處理，並將結構化表示向上傳遞。設計理念根植於傳統軟體工程：關注點分離、獨立測試每個元件，確保任何故障都能在模組層面診斷。

模組	功能	技術	核心優勢
感知	接收原始感測器資料（雷達+攝影機+毫米波），產生結構化世界表示：車輛、行人、騎士、道路標線、交通號誌	多個專用神經網路（每類物件每個感測器各一個）；感測器融合合併輸出	每個感知模型可獨立測試、驗證與更新；安全工程師可檢視中間輸出
預測	接收感知的結構化世界模型，預測所有交通參與者的未來軌跡（行人會走哪裡？那輛車會怎麼做？）	MultiPath++（Waymo 發表的軌跡預測模型）；輸出未來狀態的概率分布	概率輸出使不確定性顯式化；規劃器可具備風險意識
規劃	接收預測軌跡，為 Waymo 車輛生成安全、舒適的駕駛計畫	MotionCNN + 行為複製 + 基於規則的安全層；生成多個競爭計畫並評分	基於規則的安全層 = 神經網路不得違反的硬性約束（如永不越過雙黃線）
控制	將規劃輸出轉換為精確的方向盤、油門與剎車指令	傳統控制理論（PID 控制器）；與規劃可分離	可預測、可認證、可供監管機構檢視
HD 地圖	提供道路結構、車道幾何、交通號誌位置的先驗知識	Waymo 專有 HD 地圖（透過車隊持續更新）	降低感知不確定性；雷達可對照地圖以公分精度定位
模擬	在部署前於合成環境中測試各模組及完整堆疊	Waymo 的 Simulation City；基於 NeRF 的場景重建	1 英里真實數據生成 1,000+ 個模擬變體（估計）
安全監視器	可覆蓋所有其他模組並讓車輛安全停車的獨立看門狗	基於規則；非神經網路；設計為可被證明正確	最終安全保障；監管信任的關鍵

模組化設計有一個根本性的結構優勢：它創造了自然的稽核點。當 Waymo 車輛做出意外決策時，工程師可以檢視感知層輸出、驗證物件是否被正確偵測，然後檢視預測層以了解對每個交通參與者預測了哪些軌跡，再檢視規劃層以了解選擇了哪個計畫及原因。這是由架構帶來的可解釋性——不是後來加上的功能，而是系統基本設計的組成部分。

第 2 節 — Tesla 的端對端堆疊（FSD v12+）

Tesla 的完全自動駕駛（FSD）第 12 版代表了一次根本性的架構轉變：從模組化系統（早期 FSD 版本所用）轉向端對端神經網路。在 FSD v12 及以後，來自 Tesla 8 個攝影機的原始影片流入神經網路，直接輸出駕駛計畫——沒有明確的物件偵測，沒有明確的軌跡預測，關鍵路徑中沒有手寫規則。神經網路透過模仿人類駕駛員學習駕駛，訓練資料集包含數十億英里（估計）的有介入記錄的影片。

元件	功能	技術	核心優勢
影片分詞器	將 8 個攝影機的影片轉換為神經網路可處理的 token	Tesla 自訂影片分詞器；類似 Vision Transformer 概念	同時處理空間+時間上下文；無需手寫物件偵測
端對端神經網路	接收分詞影片（過去+現在幀）直接輸出駕駛計畫（軌跡+速度曲線）	Transformer 架構；在 600 萬+ 車隊數據上訓練；無中間結構化表示	學習工程師無法明確編程的駕駛行為；透過訓練數據規模處理長尾場景
佔用網路	預測車輛周圍空間的 3D 佔用情況（哪些空間被佔用，未來可能被佔用）	神經佔用預測；取代傳統物件偵測+追蹤	處理不符合預定義類別的物件（垃圾袋、特殊車輛）
自動標記管線	自動標記車隊影片用於訓練（避免大規模人工標注）	神經標記模型；人工審查邊緣案例	無需按比例增加人工標注成本即可擴展至數十億英里
無 HD 地圖	FSD v12+ 不需要預先建立的 HD 地圖	基於視覺的即時攝影機觀測定位	在 Waymo 未建圖的城市中運作；無地圖維護成本的地理擴展
Dojo 訓練叢集	大規模訓練端對端模型	Tesla 自訂 D1 晶片、ExaPOD 叢集（1+ ExaFLOP 估計）	每次模型更新的訓練成本可能低於租用 H100 叢集（估計）
介入式學習	駕駛員介入（接管 FSD）被記錄為邊緣案例的訓練信號	基於人類糾正的監督學習	600 萬+ 車隊產生大量介入數據

車隊資料飛輪是 Tesla 方法最關鍵的結構優勢。超過 600 萬輛在路上行駛的車輛持續生成影片，Tesla 積累了幾乎無限的駕駛數據——包括最難在小型車隊中遇到的罕見邊緣案例。Waymo 小得多的車隊（數萬輛而非數百萬輛）無法從真實世界數據量單獨生成可比的邊緣案例覆蓋，這就是為何 Waymo 大量投資於模擬。

第 3 節 — 架構比較：模組化 vs 端對端

維度	Waymo（模組化）	Tesla（端對端）	判斷
可解釋性	高——每個模組有可檢視輸出；工程師可精確診斷故障	低——「為何左轉？」很難從神經網路內部狀態回答	Waymo 優勢（除錯與監管說明）
可認證性	高——基於規則的安全層、可分離模組、元件可形式驗證	低——認證黑盒神經網路是開放研究問題	Waymo 優勢（形式安全案例）
可擴展性（地理）	較低——每個城市需要 HD 地圖（時間+成本）；感測器套件昂貴	較高——無地圖 FSD 可在任何有道路的城市運作	Tesla 優勢（地理規模）
可擴展性（邊緣案例）	較低——模組化系統需要對新邊緣案例類別進行明確工程設計	較高——端對端透過訓練數據學習新行為	Tesla 優勢（若車隊數據足夠）
開發速度	較慢——更改一個模組需驗證與所有其他模組的交互	較快——重新訓練整個模型；改進自動出現	Tesla 優勢（迭代速度）
故障模式	可預測——每個模組有已定義的故障模式；安全監視器捕獲模組故障	較不可預測——新型輸入分布可能導致意外輸出	Waymo 優勢（對安全至關重要）
感測器成本	高——每輛車雷達+攝影機+毫米波；感測器成本 $5,000-15,000+（估計）	低——僅攝影機；硬體成本最低	Tesla 成本優勢
地圖維護成本	高——每個城市需要持續地圖更新	零——無地圖維護	Tesla 優勢（規模化時）
目前技術水平	Waymo 模組化系統是當今已驗證的無人駕駛商業方案	Tesla FSD v12/v13 端對端是當今改進最快的有監督駕駛系統	兩者在各自部署體制中均處於技術前沿

第 4 節 — 收斂論

觀察 2025-2026 年兩種架構最重要的洞察是：它們正在收斂。純模組化和純端對端似乎都不是長期答案。兩家公司都在向自身架構中添加對立架構的元素。

趨勢	證據	意涵
行業向端對端收斂	Waymo、Mobileye 等模組化堆疊公司正在向模組化管線中加入神經端對端元件（混合方法）	端對端可能是長期贏家；模組化公司正在向其靠攏
Tesla 加入結構化輸出	Tesla 的佔用網路和車道預測在端對端輸出之上增加了結構——向模組化概念的部分收斂	混合架構可能優於任何一方的純版本
學術共識轉移	主要 AV 研究團隊的論文越來越多地使用端對端架構；Waymo 自己的研究論文也展示了端對端實驗	學術動力在端對端，最終將流入行業
基於 LLM 的規劃湧現	Wayve 等公司和主要實驗室的早期實驗正在使用大型語言模型作為規劃器	LLM 規劃器可能取代模組化和傳統端對端；Waymo 和 Tesla 都在實驗
模仿 vs 強化學習	當前端對端系統（包括 Tesla）主要是模仿學習（複製人類駕駛員）；RL 訓練系統可超越人類行為	Tesla 和 Waymo 都在探索 RL；RL 可能是下一個突破點

第 5 節 — 軟體堆疊基準評分卡

維度	Waymo	Tesla	優勢方
目前無人駕駛可靠性	已驗證——每週 150,000+ 次乘車，1,000 萬+ 無人駕駛英里（估計）	尚未無人駕駛（僅有監督 FSD）	Waymo
可解釋性與可除錯性	高（模組化）	低（端對端黑盒）	Waymo
地理可擴展性	較低（每個城市需要 HD 地圖）	較高（無地圖 FSD）	Tesla
邊緣案例學習速度	較慢（需工程設計+重新訓練）	較快（車隊數據→重新訓練→部署）	Tesla
監管可認證性	較高（基於規則的層、可檢視模組）	較低（神經網路認證問題未解決）	Waymo
每輛車感測器成本	高（~$5K-15K 雷達+攝影機+毫米波估計）	低（僅攝影機）	Tesla
架構走向	向混合收斂（加入端對端元件）	向混合收斂（加入結構化輸出）	平局——兩者都朝混合架構發展
長期贏家	不確定——模組化在安全可解釋性上勝出；端對端在可擴展性上勝出；混合可能是答案	—	開放問題；Physical AI 中最重要的未解辯論

評分卡揭示了 AV 行業尚未解決的根本張力。Waymo 在今日安全認證和監管批准最重要的每個維度上都領先；Tesla 在商業快速規模化最重要的每個維度上都領先。技術軌跡表明這些優勢將收斂：隨著混合架構成熟，兩種方法都在向另一方靠近。最終這場 2020 年代的 AV 架構辯論或許會被記住，不是兩種不可調和範式之間的戰鬥，而是行業通過先建構兩個極端、再發現各自缺失的方式，學到混合架構應當是什麼樣子的十年。

注意： 所有標記「（估計）」的數據均源自截至 2026 年中的公開披露、研究出版物、分析師估計及行業報告。本文不構成投資建議。