Skip to content
AI-Daily-Builder

2026-06-18 views

Physical AI 軟體堆疊架構 — Waymo 模組化管線 vs Tesla 端對端神經網路:AV 史上最關鍵技術決策

Waymo 採用可解釋模組化管線;Tesla 押注 600 萬輛車隊訓練的端對端神經網路;兩者正朝混合架構收斂。

Physical AI 基準系列第 136 篇 — Physical AI 軟體堆疊架構:Waymo 模組化管線 vs Tesla 端對端神經網路,以及為何堆疊選擇是 AV 史上最關鍵的技術決策

自動駕駛工程領域最大的未解辯論,不在於感測器、地圖或城市——而在於架構。你應該建立模組化管線(感知、預測與規劃各由獨立模型處理,每個階段都有可解釋的中間輸出)?還是建立端對端神經網路(原始感測器資料直接輸入神經網路,輸出方向盤、油門與剎車指令,完全靠真實車隊影片訓練)?Waymo 選擇了模組化;Tesla 選擇了端對端。這不僅是技術偏好——它決定了安全哲學、監管立場、除錯能力,以及最終誰能更快擴展、擴展到哪些地區。這是 Physical AI 基準系列第 136 篇。

所有標記「(估計)」的數據均源自公開披露、研究出版物、行業分析師估計及合理推斷,而非獨立驗證的第一手資料。


第 1 節 — Waymo 的模組化堆疊

Waymo 的軟體架構是一個分層模組化管線。每一層接收下層的輸出,使用一個或多個專用神經網路或規則系統進行處理,並將結構化表示向上傳遞。設計理念根植於傳統軟體工程:關注點分離、獨立測試每個元件,確保任何故障都能在模組層面診斷。

模組功能技術核心優勢
感知接收原始感測器資料(雷達+攝影機+毫米波),產生結構化世界表示:車輛、行人、騎士、道路標線、交通號誌多個專用神經網路(每類物件每個感測器各一個);感測器融合合併輸出每個感知模型可獨立測試、驗證與更新;安全工程師可檢視中間輸出
預測接收感知的結構化世界模型,預測所有交通參與者的未來軌跡(行人會走哪裡?那輛車會怎麼做?)MultiPath++(Waymo 發表的軌跡預測模型);輸出未來狀態的概率分布概率輸出使不確定性顯式化;規劃器可具備風險意識
規劃接收預測軌跡,為 Waymo 車輛生成安全、舒適的駕駛計畫MotionCNN + 行為複製 + 基於規則的安全層;生成多個競爭計畫並評分基於規則的安全層 = 神經網路不得違反的硬性約束(如永不越過雙黃線)
控制將規劃輸出轉換為精確的方向盤、油門與剎車指令傳統控制理論(PID 控制器);與規劃可分離可預測、可認證、可供監管機構檢視
HD 地圖提供道路結構、車道幾何、交通號誌位置的先驗知識Waymo 專有 HD 地圖(透過車隊持續更新)降低感知不確定性;雷達可對照地圖以公分精度定位
模擬在部署前於合成環境中測試各模組及完整堆疊Waymo 的 Simulation City;基於 NeRF 的場景重建1 英里真實數據生成 1,000+ 個模擬變體(估計)
安全監視器可覆蓋所有其他模組並讓車輛安全停車的獨立看門狗基於規則;非神經網路;設計為可被證明正確最終安全保障;監管信任的關鍵

模組化設計有一個根本性的結構優勢:它創造了自然的稽核點。當 Waymo 車輛做出意外決策時,工程師可以檢視感知層輸出、驗證物件是否被正確偵測,然後檢視預測層以了解對每個交通參與者預測了哪些軌跡,再檢視規劃層以了解選擇了哪個計畫及原因。這是由架構帶來的可解釋性——不是後來加上的功能,而是系統基本設計的組成部分。


第 2 節 — Tesla 的端對端堆疊(FSD v12+)

Tesla 的完全自動駕駛(FSD)第 12 版代表了一次根本性的架構轉變:從模組化系統(早期 FSD 版本所用)轉向端對端神經網路。在 FSD v12 及以後,來自 Tesla 8 個攝影機的原始影片流入神經網路,直接輸出駕駛計畫——沒有明確的物件偵測,沒有明確的軌跡預測,關鍵路徑中沒有手寫規則。神經網路透過模仿人類駕駛員學習駕駛,訓練資料集包含數十億英里(估計)的有介入記錄的影片。

元件功能技術核心優勢
影片分詞器將 8 個攝影機的影片轉換為神經網路可處理的 tokenTesla 自訂影片分詞器;類似 Vision Transformer 概念同時處理空間+時間上下文;無需手寫物件偵測
端對端神經網路接收分詞影片(過去+現在幀)直接輸出駕駛計畫(軌跡+速度曲線)Transformer 架構;在 600 萬+ 車隊數據上訓練;無中間結構化表示學習工程師無法明確編程的駕駛行為;透過訓練數據規模處理長尾場景
佔用網路預測車輛周圍空間的 3D 佔用情況(哪些空間被佔用,未來可能被佔用)神經佔用預測;取代傳統物件偵測+追蹤處理不符合預定義類別的物件(垃圾袋、特殊車輛)
自動標記管線自動標記車隊影片用於訓練(避免大規模人工標注)神經標記模型;人工審查邊緣案例無需按比例增加人工標注成本即可擴展至數十億英里
無 HD 地圖FSD v12+ 不需要預先建立的 HD 地圖基於視覺的即時攝影機觀測定位在 Waymo 未建圖的城市中運作;無地圖維護成本的地理擴展
Dojo 訓練叢集大規模訓練端對端模型Tesla 自訂 D1 晶片、ExaPOD 叢集(1+ ExaFLOP 估計)每次模型更新的訓練成本可能低於租用 H100 叢集(估計)
介入式學習駕駛員介入(接管 FSD)被記錄為邊緣案例的訓練信號基於人類糾正的監督學習600 萬+ 車隊產生大量介入數據

車隊資料飛輪是 Tesla 方法最關鍵的結構優勢。超過 600 萬輛在路上行駛的車輛持續生成影片,Tesla 積累了幾乎無限的駕駛數據——包括最難在小型車隊中遇到的罕見邊緣案例。Waymo 小得多的車隊(數萬輛而非數百萬輛)無法從真實世界數據量單獨生成可比的邊緣案例覆蓋,這就是為何 Waymo 大量投資於模擬。


第 3 節 — 架構比較:模組化 vs 端對端

維度Waymo(模組化)Tesla(端對端)判斷
可解釋性高——每個模組有可檢視輸出;工程師可精確診斷故障低——「為何左轉?」很難從神經網路內部狀態回答Waymo 優勢(除錯與監管說明)
可認證性高——基於規則的安全層、可分離模組、元件可形式驗證低——認證黑盒神經網路是開放研究問題Waymo 優勢(形式安全案例)
可擴展性(地理)較低——每個城市需要 HD 地圖(時間+成本);感測器套件昂貴較高——無地圖 FSD 可在任何有道路的城市運作Tesla 優勢(地理規模)
可擴展性(邊緣案例)較低——模組化系統需要對新邊緣案例類別進行明確工程設計較高——端對端透過訓練數據學習新行為Tesla 優勢(若車隊數據足夠)
開發速度較慢——更改一個模組需驗證與所有其他模組的交互較快——重新訓練整個模型;改進自動出現Tesla 優勢(迭代速度)
故障模式可預測——每個模組有已定義的故障模式;安全監視器捕獲模組故障較不可預測——新型輸入分布可能導致意外輸出Waymo 優勢(對安全至關重要)
感測器成本高——每輛車雷達+攝影機+毫米波;感測器成本 $5,000-15,000+(估計)低——僅攝影機;硬體成本最低Tesla 成本優勢
地圖維護成本高——每個城市需要持續地圖更新零——無地圖維護Tesla 優勢(規模化時)
目前技術水平Waymo 模組化系統是當今已驗證的無人駕駛商業方案Tesla FSD v12/v13 端對端是當今改進最快的有監督駕駛系統兩者在各自部署體制中均處於技術前沿

第 4 節 — 收斂論

觀察 2025-2026 年兩種架構最重要的洞察是:它們正在收斂。純模組化和純端對端似乎都不是長期答案。兩家公司都在向自身架構中添加對立架構的元素。

趨勢證據意涵
行業向端對端收斂Waymo、Mobileye 等模組化堆疊公司正在向模組化管線中加入神經端對端元件(混合方法)端對端可能是長期贏家;模組化公司正在向其靠攏
Tesla 加入結構化輸出Tesla 的佔用網路和車道預測在端對端輸出之上增加了結構——向模組化概念的部分收斂混合架構可能優於任何一方的純版本
學術共識轉移主要 AV 研究團隊的論文越來越多地使用端對端架構;Waymo 自己的研究論文也展示了端對端實驗學術動力在端對端,最終將流入行業
基於 LLM 的規劃湧現Wayve 等公司和主要實驗室的早期實驗正在使用大型語言模型作為規劃器LLM 規劃器可能取代模組化和傳統端對端;Waymo 和 Tesla 都在實驗
模仿 vs 強化學習當前端對端系統(包括 Tesla)主要是模仿學習(複製人類駕駛員);RL 訓練系統可超越人類行為Tesla 和 Waymo 都在探索 RL;RL 可能是下一個突破點

第 5 節 — 軟體堆疊基準評分卡

維度WaymoTesla優勢方
目前無人駕駛可靠性已驗證——每週 150,000+ 次乘車,1,000 萬+ 無人駕駛英里(估計)尚未無人駕駛(僅有監督 FSD)Waymo
可解釋性與可除錯性高(模組化)低(端對端黑盒)Waymo
地理可擴展性較低(每個城市需要 HD 地圖)較高(無地圖 FSD)Tesla
邊緣案例學習速度較慢(需工程設計+重新訓練)較快(車隊數據→重新訓練→部署)Tesla
監管可認證性較高(基於規則的層、可檢視模組)較低(神經網路認證問題未解決)Waymo
每輛車感測器成本高(~$5K-15K 雷達+攝影機+毫米波 估計)低(僅攝影機)Tesla
架構走向向混合收斂(加入端對端元件)向混合收斂(加入結構化輸出)平局——兩者都朝混合架構發展
長期贏家不確定——模組化在安全可解釋性上勝出;端對端在可擴展性上勝出;混合可能是答案開放問題;Physical AI 中最重要的未解辯論

評分卡揭示了 AV 行業尚未解決的根本張力。Waymo 在今日安全認證和監管批准最重要的每個維度上都領先;Tesla 在商業快速規模化最重要的每個維度上都領先。技術軌跡表明這些優勢將收斂:隨著混合架構成熟,兩種方法都在向另一方靠近。最終這場 2020 年代的 AV 架構辯論或許會被記住,不是兩種不可調和範式之間的戰鬥,而是行業通過先建構兩個極端、再發現各自缺失的方式,學到混合架構應當是什麼樣子的十年。

注意: 所有標記「(估計)」的數據均源自截至 2026 年中的公開披露、研究出版物、分析師估計及行業報告。本文不構成投資建議。


來源

標籤

請喝咖啡