2026-06-18 — views

Waymo Driver 軟體架構——驅動全球最大無人駕駛車隊的六層技術堆疊深度解析

Waymo 模組化六層堆疊——感知、世界建模、預測、規劃、控制——是其安全記錄背後的技術基礎。

實體 AI 基準系列第 42 篇——架構深度解析

對自動駕駛車輛而言，軟體架構不僅是實作細節，更是安全主張的核心。感知資料如何流入規劃決策、各模組之間的邊界設計、故障偵測與邊界限制的機制——這些全部決定了一輛自動駕駛車在不配備人類備援的情況下，能否經過系統性驗證後再上路載客。硬體重要、感測器套件重要、訓練資料重要，但架構是使所有其他元件得以可驗證或不可驗證的骨幹。因此，理解 Waymo 的六層堆疊，是理解 Waymo 為何能在其無人駕駛商業車隊的數百萬商業里程中，維持零自責致死事故記錄（估計值，依據 Waymo 安全報告）的先決條件。

本文是本系列 Tesla FSD 文章的技術對應篇。先前的 Tesla 文章涵蓋了端對端神經網路策略設計、Dojo 訓練超級電腦，以及建立在逾 50 億監督式真實世界駕駛里程（估計值）之上的資料飛輪。本文則聚焦於截然相反的架構哲學：Waymo 明確採用的模組化、逐層設計，其中每個元件都有定義明確的輸入、輸出，以及可獨立於其他元件量測與限制的正式故障模式。兩種方法都是合理的工程賭注。並行理解兩者，是掌握 2026 年自動駕駛系統前沿「實體 AI」真實意涵最清晰的方式。

第一節——六層堆疊

Waymo 將其自動駕駛軟體稱為「Waymo Driver」，運行於舊金山、洛杉磯、鳳凰城及奧斯汀所有無人駕駛車輛上。對外說明常將架構簡化為五層，但 Waymo 的實際系統在功能上將感測器處理與語義感知分開——因此六層是更精確的描述。下表列出每一層的功能，並對比 Waymo 的具體方法與 Tesla 根本不同的架構哲學。標記（估計值）的所有數字，為 Waymo 未正式發布官方資料時的估算值。

層級	功能	Waymo 的方法	Tesla 的方法
1. 感測器處理	原始感測器資料轉為清洗過的點雲與影像	LiDAR＋相機＋雷達融合；專有感測器校準管線	僅相機；即時影像處理；無 LiDAR
2. 感知	感測器資料轉為物件（車輛、行人、騎士、錐桶）及其位置與速度	多模態融合：LiDAR 提供精確 3D 幾何；相機提供外觀、顏色與文字；雷達提供速度	僅相機；端對端神經網路直接從影像串流預測物件
3. 世界建模	物件轉為當前環境的語義地圖（車道、交通號誌、施工區）	HD 地圖＋即時感測器更新；語義地圖層了解車道連通性、號誌相位及合法行為	稀疏地圖或無地圖；依賴神經網路從相機推斷車道結構
4. 預測	當前世界狀態轉為所有代理的可能未來狀態	具不確定性建模的結構化軌跡預測；考量社會規範	端對端：預測隱含於策略網路中，並非獨立模組
5. 規劃	預測的未來狀態轉為 Waymo 的預期軌跡（路徑＋速度剖面）	多假設規劃：生成 N 條候選軌跡，依安全、舒適、規則評分，選出最佳	端對端：規劃隱含於策略網路中，並非獨立模組
6. 控制	預期軌跡轉為方向盤、油門、煞車指令	模型預測控制（MPC）：以預測補償方式追蹤規劃軌跡	端對端：控制直接來自策略網路輸出

關於常見的「五層」說法：感測器處理在實務中是獨立且關鍵的一層。將原始 LiDAR 回波轉換為乾淨的地理參考點雲——考量車輛運動、感測器振動及環境條件——本身就是一個重要的工程子系統。將其併入「感知」層會低估其複雜性，也會低估它作為物件偵測前第一道品質管控的角色。標記（估計值）的所有數據點及架構描述，反映的是公開資訊與分析師推論，而非 Waymo 的官方揭露。

第二節——模組化架構為何對安全至關重要

Waymo 架構的核心安全主張，並非任何單一層是完美的——而是每一層都可以獨立驗證。這個區別具有根本性意義。一個整體式的端對端神經網路可以在測試集上展現良好的整體性能，但要隔離故障模式的來源，需要理解一個擁有數十億參數系統的內部表示。模組化架構則允許不同類型的保證：每一層都可以依照其自身的規範獨立評估，不受其上下層的影響。

來看看這在實務中如何運作。感知錯誤可以被偵測並限制：如果 LiDAR 和相機對某個物件是否存在意見不一，系統可以將該物件標記為不確定，並在其周圍保守地規劃，而不是倉促地提交一個有信心的誤分類。預測錯誤可以被量測：系統累積統計行人在未來三秒內的預測軌跡與實際軌跡相符的頻率分佈，而這個指標可以跨時間和地域追蹤。規劃可以依照正式規則集進行驗證，確認所選軌跡從不違反如車道邊界或號誌相位等硬性約束。控制可以透過注入已知目標軌跡並量測追蹤精度，在與上游不確定性完全解耦的情況下獨立測試。

對比 Tesla 的端對端神經網路架構。其優勢是真實且重要的：一個在數十億英里真實世界資料上訓練的單一端對端系統，能夠泛化到手工設計的模組化系統可能未曾預料的情境。模組化系統中的預測和規劃模組必須明確設計；端對端系統則從資料中自行發現內部表示。劣勢同樣真實：當端對端系統出錯時，故障模式無法被隔離。它難以正式驗證——無法將「預測 bug」與「規劃 bug」區分開來，因為這些功能並非具有獨立規範的獨立模組。

對於商業規模部署，三個模組化優勢最為重要：

逐層除錯： 當一名行人被誤分類——被偵測為靜態物件而非移動中的人——故障被隔離在感知層。工程師可以對該層進行工具化分析、針對性地執行模擬情境、重新訓練其模型，並獨立驗證修復效果，無需重新驗證整個策略。

層級安全監控器： 獨立的安全檢查可以在每一層的輸出傳遞至下一層之前進行驗證。系統可以偵測感知層產生的物件清單與先前幀不一致的情況，並觸發保守的備援行為。這些監控器本身是具有已知規範的可驗證元件。

HD 地圖作為硬性安全約束： 語義地圖提供下游規劃層無法覆蓋的基準事實。特定道路段是單行道這個事實是硬性約束，而非學習到的偏好。即使規劃層生成了違反此約束的候選軌跡，地圖約束也會在執行前拒絕該軌跡。這創造了一類從根本上不同於純學習式系統的安全保證。

第三節——HD 地圖：優勢與限制

HD 地圖同時是 Waymo 最強大的安全工具，也是其最重要的營運瓶頸。Waymo 行駛的每一商業英里都在已建圖區域內，系統對車道幾何、交通號誌位置與相位、每個路口的合法行為、施工區邊界及行人穿越道位置都有基準事實。感測器資料即時更新地圖的動態元素（如其他車輛和行人），但靜態語義骨幹——Waymo Driver 建立其世界理解的基礎——是 HD 地圖。

面向	HD 地圖（Waymo）	無地圖（Tesla）
已建圖區域的安全性	高——地圖提供基準事實；感測器融合填補時間空白	良好——神經網路在已建圖和未建圖區域同等應對
擴張速度	慢——每個新城市需要數月建圖與驗證	快——FSD 可在任何 Tesla 行駛過的地方運作
施工／活動處理	需要頻繁地圖更新；Waymo 有專屬建圖車輛	神經網路動態處理（無地圖需更新）
邊緣情境	在已建圖區域處理良好；在地圖覆蓋範圍外性能下降	因情況而異——取決於訓練資料中是否出現過類似情境
地圖更新延遲	車隊即時更新；重大變更採批次更新	無地圖需更新

HD 地圖依賴性的營運後果是直接的：Waymo 在新城市啟動商業服務約需 6 至 12 個月（估計值）。建圖活動必須完成。標注必須經過驗證。針對該城市道路幾何和交通模式的模擬情境必須建立並執行。監督式駕駛驗證必須累積足夠里程，以建立無人駕駛作業的安全案例。這些步驟無一可以略過，否則將動搖不配備人類備援駕駛的安全主張。

這是 Waymo 在其營運城市中的「不公平優勢」——同時也是限制其擴張速度的主要約束。在已建圖的地理圍欄內，系統對環境的理解經過驗證，達到任何非結構化神經網路在正式保證方面都無法比擬的程度。在已建圖區域之外，Waymo Driver 不會商業運作。就在這條邊界上，Tesla FSD 的無地圖方法具有任何模擬都無法完全替代的結構性優勢。

第四節——模擬管線：Waymo 對 Tesla 資料飛輪的回應

Tesla 的資料飛輪是自動駕駛開發中討論最多的競爭優勢之一：數百萬輛消費者車輛組成的車隊，每輛上傳來自真實世界駕駛的邊緣情境，提供一個隨每英里駕駛自我強化的訓練集。Tesla 據報以逾 50 億監督式真實世界里程（估計值）作為訓練資料。對於端對端系統，資料量直接與策略品質正相關。

Waymo 對這個不對稱性的回應是其模擬平台，即 Carcraft。Carcraft 的架構針對 Waymo 處境的核心挑戰：相對較小的真實車隊，累積的是數千萬無人駕駛英里而非數十億消費者英里。Carcraft 透過將每一個真實里程轉化為大量針對性模擬情境，來放大那些真實里程的價值。

代理行為模型在真實的 Waymo 無人駕駛里程上訓練，用於在模擬環境中填充逼真的合成人類駕駛、騎士和行人。行為模型並非手工編寫的規則——它們是從 Waymo 營運城市的觀察人類行為中學習的，這意味著模擬代理的行為反映了每個城市特定的交通文化和規範。

感測器模擬使用物理模型生成合成 LiDAR、相機和雷達訊號（LiDAR 採用光線追蹤；相機採用神經輻射場，估計值）。這意味著 Waymo Driver 可以在模擬中對足夠逼真的感測器輸入進行測試，以觸發其在真實世界中會表現出的相同感知和預測行為。

情境萃取是使模擬得以規模化的機制：真實世界的邊緣情境——不尋常的行人穿越、意外的車輛機動、非標準標誌的施工區——從車隊日誌中萃取、標記，並以大規模方式注入模擬。一個只發生過一次的真實世界事件，可以在天氣、光照、速度和代理行為的變體下重播數千次。

對抗性測試更進一步，生成在真實世界資料中過於罕見而無法在任何訓練集中可靠出現的最惡情境：一名行人從停靠的卡車後方衝入馬路，一輛車輛在低能見度的大霧中高速強行並線。這些對抗情境對真實世界里程數年內可能都不會浮現的故障模式進行壓力測試。

Waymo 據報每天執行數十億模擬英里（估計值）。每一個無人駕駛真實世界里程，透過萃取和增強管線約生成 1,000 個模擬英里（估計值）。這個比率是 Waymo 對資料飛輪不對稱性的結構性回應：較少的真實里程，但更高品質、更有針對性的模擬，旨在覆蓋稀有且危險情境的長尾，而非普通駕駛的主要部分。

第五節——城市上線：六階段管線

每個新的 Waymo 城市都遵循一個結構化的上線序列，反映了上述的架構依賴關係。這個序列無法大幅壓縮，因為每個階段產生的輸出是下一個階段所需的輸入。以下時程估計基於 Waymo 在現有市場的觀察速度；為估計值（估計值）而非官方揭露。

第一階段——建圖活動： 專屬建圖車輛在規劃服務區域的每條道路上收集 LiDAR、相機和 GPS 基準事實。這不是一次性的工作；建圖車輛會定期回訪，以捕捉季節性變化、新施工和更新的交通號誌設定。所需時間：每個城市約 3 至 6 個月（估計值），取決於服務區域大小和路網複雜度。

第二階段——標注與語義標記： 每個地圖特徵都被標記：車道邊界、交通號誌位置和相位、行人穿越道位置、轉彎限制、停車標誌位置、施工區域指定。這項標注工作結合了自動化工具和人工審查。語義標記是世界建模層在商業運作期間將使用的基準事實。

第三階段——模擬活動： 針對新城市的道路幾何、路口設計和交通模式的邊緣情境在 Carcraft 中生成。具有獨特道路佈局的城市——不尋常的路口幾何、複雜的高速公路匝道、密集的行人走廊——需要反映其特定故障模式的客製化模擬庫。

第四階段——影子模式與監督測試： Waymo 車輛在安全員在場的情況下在新城市行駛，記錄所有脫離事件和近距離事件。影子模式比較——Waymo Driver 的假設決策與人類駕駛員實際操作的對比——提供了在移除人類備援之前識別殘餘性能差距所需的資料。

第五階段——無人駕駛驗證： 建立系統性安全案例，記錄在定義的操作條件集合中的性能：天氣範圍、一天中的時間、交通密度、邊緣情境類別。隨後進行監管申請。這個階段在監督式之後通常需要 3 至 6 個月（估計值）。

第六階段——商業啟動： 無人駕駛付費服務在地理圍欄區域內開始，全天候 24 小時運作。隨著相鄰區域的額外建圖、模擬和驗證工作完成，地理圍欄通常會逐步擴展。

每個新城市的總時程：從建圖活動開始到首次商業無人駕駛乘車，約 12 至 24 個月（估計值）。為亞特蘭大市場宣布的 Moove 特許加盟合作夥伴關係，加速了車隊運作和車輛物流，但並未縮短軟體上線管線——建圖、標注、模擬和驗證工作仍必須完成，Waymo Driver 才能在沒有安全員的情況下運作。

Waymo 的架構不僅僅是技術偏好——它是具有直接商業後果的深思熟慮的工程哲學。模組化、依賴地圖、可正式驗證的堆疊，擴張更慢、地理上難以規模化，且每個新城市的成本更高。作為交換，它提供了一類端對端學習系統目前無法比擬的安全保證：逐層驗證、有界的故障模式，以及 HD 地圖提供的、不能被學習策略覆蓋的硬性語義約束。

Tesla 的端對端方法是合理的反向賭注。在數十億真實世界里程上訓練的單一策略，能夠泛化到 Tesla 行駛過的任何地理位置，無需在新城市首輛車輛運作前進行六個月的建圖活動。它以正式可驗證性換取規模和覆蓋範圍，賭注在於足夠的資料量和模型容量將產生一個安全到可以在所有地理位置同時商業部署的策略。

兩種賭注在各自公司的起始位置下都是合理的。Waymo 起源於具有學術安全文化並能取得 Alphabet 資本的研究項目；正式可驗證性是自然的基礎。Tesla 起源於擁有數百萬輛車隊的消費者車輛製造商；資料規模是自然的基礎。並行理解兩種架構，是評估 2026 年實體 AI 前沿真實所在的最精確方式——以及哪種方法將定義自動駕駛移動的下一個十年。

資料來源：Waymo 安全報告（waymo.com/safety）；Waymo Driver 技術概覽（waymo.com/blog）；Waymo Carcraft 模擬概覽（waymo.com/blog/2021/waymo-simulation）；Tesla FSD 端對端架構，Tesla AI Day 2022（tesla.com/AI）。所有標記（估計值）的數字均為基於公開揭露、監管申請及第三方報導的估算值；未經獨立核實，可能與 Waymo 內部資料有所不同。