2026-06-18 — views
實體AI模擬與測試——Tesla影子模式 vs Waymo CarCraft:十億英里規模的自動駕駛驗證
Waymo CarCraft每天運行150億模擬英里;Tesla影子模式從600萬FSD車輛蒐集真實訊號。完整自動駕駛安全論證需要兩者。
實體AI基準測試系列第148篇——實體AI模擬與測試基礎設施:Tesla影子模式 vs Waymo CarCraft
模擬是自動駕駛開發中的秘密武器。行人在自駕車前闖紅燈的情境,在真實世界中大約每百萬英里才發生一次(估算值)——僅靠真實道路測試,每個邊緣案例都需要多年累積才能達到統計信心水準。模擬大幅壓縮了這個時程:Waymo的CarCraft每天運行150億模擬英里(Waymo公開揭露),將數十年才能累積的真實邊緣案例濃縮成每晚的連續運算。Tesla的影子模式採取互補策略——利用約600萬輛(估算值)具備FSD功能的車輛在公共道路上作為持續的真實感測器陣列,從每次司機決策與FSD規劃行動出現差異的瞬間中蒐集訊號。
本文為實體AI基準測試系列第148篇,針對模擬為何對自動駕駛開發至關重要、Tesla與Waymo如何建立截然不同的模擬架構、模擬與現實差距對各公司安全論證的影響,以及哪種方法在哪個維度勝出,進行全面基準測試。
所有標注「(估算值)」的數據均來自公開揭露、產業研究、分析師估算及已報導資料,並非獨立驗證的一手資料。本文不構成投資建議。
第一節——模擬為何對自動駕駛開發不可或缺
| 挑戰 | 真實世界測試限制 | 模擬解決方案 | 規模優勢 |
|---|---|---|---|
| 罕見邊緣案例 | 行人在自駕車前闖紅燈大約每百萬英里發生一次(估算值);在真實世界測試每個情境需要多年 | 模擬可在數小時內以參數變化重現該情境數百萬次 | 罕見事件速度優勢達1000倍以上 |
| 故障注入測試 | 無法在公共道路上安全測試感測器故障(鏡頭遮蔽、雷達阻擋) | 模擬可在任何時刻注入任何感測器故障,測試系統對感知降級的反應 | 現實世界無法進行的安全測試 |
| 迴歸測試 | 自駕軟體更動後,需重新執行所有先前測試案例才能確認沒有破壞既有情境 | 模擬在每次程式碼變更後自動重新執行所有測試情境;相當於自駕的CI/CD | 持續部署驗證 |
| 反事實測試 | 「如果車輛早0.5秒煞車會如何?」無法重現真實事故 | 模擬可以參數變化重播任何事故;支援事故調查 | 事後學習加速 |
| 規模 | Tesla約有600萬輛FSD車輛(估算值);Waymo約有2,500輛(估算值) | 模擬將有效測試車隊放大100至1000倍 | Waymo特別依賴模擬來彌補較小的真實車隊 |
| 新情境生成 | 人類駕駛和特技演員可以生成部分情境;成本高、速度慢 | 程式化生成可創造無限的情境變體(光線、天氣、行人密度、車輛配置) | 無限情境多樣性 |
為何真實英里數與模擬都不能單獨使用
真實英里數的不可替代性源於一個根本原因:真實世界會產生任何模擬團隊都未預料到的全新情境。人類駕駛行為、道路基礎設施故障和意外環境條件會產生只在野外才出現的邊緣案例。無論模擬多麼精密,都只能測試人類設計師或程式化生成器已參數化的情境。真實世界才是驗證所有模擬情境的最終基準。
然而,單靠真實英里數來達到必要的統計信心水準也不切實際。蘭德公司的研究估算,自駕車需要行駛約110億英里,才能在統計上證明其安全性優於人類駕駛的死亡率。以每輛車每天100英里計算,1萬輛車的車隊需要約30年(估算值)才能累積足夠的里程。模擬是壓縮驗證時程的唯一可信途徑。
正確的架構需要兩者並用:真實世界駕駛用於發現新情境並提供基準驗證,模擬用於徹底測試已發現的情境、對每次程式碼變更進行迴歸測試,以及生成在公共道路上測試過於危險或過於罕見的對抗性邊緣案例。
第二節——Tesla影子模式:架構與規模
| 元素 | 細節 | 備註 |
|---|---|---|
| 影子模式是什麼? | Tesla FSD在所有具備FSD功能的車輛上靜默並行運行,比較FSD的決策與駕駛人實際行為;記錄差異 | 每輛啟用FSD的Tesla都是持續的影子模式資料點;約600萬輛車(估算值)的每次行程 |
| 規模(估算值) | 每天在約600萬輛FSD車隊(估算值)上進行數百萬次影子模式比對 | 業界規模最大的真實世界影子模式資料集,遙遙領先 |
| 影子模式偵測什麼 | FSD會做出與駕駛人不同決策的案例;FSD會更早煞車、更早轉彎等 | 並非所有FSD偏差都代表FSD有誤;部分是FSD比駕駛人更謹慎;需要人工審核標注 |
| Dojo在影子模式中的角色 | Dojo大規模處理影子模式影片片段;訓練FSD達到或超越人類駕駛行為 | 影子模式資料輸入Dojo訓練,產生更好的FSD,再產生更好的影子模式訊號——形成飛輪效應 |
| 限制:基準真相品質 | 影子模式使用真實感測器資料而非模擬;但「基準真相」是駕駛人行為,而非最優行為 | 駕駛人行為是訓練訊號;若駕駛人犯錯,FSD會從錯誤中學習 |
| 自動標注流程 | Tesla的4D標注(空間加時間)使用神經網路自動標注影片幀;降低人工標注成本 | 自動標注規模使處理數百萬小時影片成為可能;人工審核聚焦於邊緣案例 |
| 模擬 vs 影子模式 | Tesla兩者並用;影子模式提供真實邊緣案例;模擬以變化重新大規模執行 | 互補關係:真實世界識別情境;模擬徹底測試情境 |
| 解除接管資料 | 每次強制解除FSD接管(駕駛人介入)都是訓練訊號;解除接管率約每年減半(估算值) | 解除接管率是影子模式、Dojo和模擬共同優化的輸出指標 |
影子模式飛輪效應
Tesla的影子模式創造了一個自我強化的改進循環,任何競爭對手若沒有可比的安裝車隊規模都難以複製。其機制如下:每輛具備FSD功能的Tesla在道路上持續運行兩個並行決策系統——駕駛人做出實際決策,FSD同步計算其預期決策。每當兩者出現差異,該差異就會被記錄並最終接受審核。在數百萬輛車和數兆英里的積累下,這產生了關於FSD行為與有經驗的人類駕駛者不同情況的卓越訊號。
影子模式的輸出饋入Dojo——Tesla專為這種工作負載設計的自訂AI超級電腦,能以傳統運算基礎設施無法做到的成本效益處理影片資料。Dojo訓練下一版FSD,讓其在影子模式發現差異的情境中更好地匹配或超越人類駕駛決策。更好的FSD產生更好的影子模式訊號——因為更有能力的FSD會在更有趣的情況下與人類駕駛產生差異,特別是在FSD做出更優決策、需要人工審核確認並強化的案例中。
此處的規模優勢並非微不足道。Tesla約600萬輛(估算值)具備FSD功能的車輛每天產生的真實世界影子資料,比全球任何其他自駕車計畫在整個發展歷史中累積的資料量還要多出幾個數量級。
第三節——Waymo CarCraft:架構與規模
| 元素 | 細節 | 備註 |
|---|---|---|
| CarCraft是什麼? | Waymo的內部模擬環境;大規模模擬整個城市環境,包含車輛代理、行人、騎士和邊緣案例情境 | Waymo已公開揭露CarCraft;被描述為全球最先進的自駕模擬環境之一 |
| 規模 | Waymo已揭露每天運行約150億模擬英里(Waymo揭露) | 150億模擬英里/天 vs 約5萬真實英里/天(估算值)= 約30萬倍模擬乘數 |
| 保真度方法 | 車輛高保真度物理模擬;其他代理(行人、騎士、其他車輛)的行為建模 | 代理行為建模是Waymo的關鍵差異化;其他代理行為真實而非隨機 |
| 情境來源 | 真實車隊事件輸入模擬重播;參數變化生成徹底的測試套件 | 每個真實世界的不適事件、捏一把冷汗或異常情境都成為模擬測試套件 |
| 對抗性情境生成 | Waymo生成其他代理以最具挑戰性方式行動的對抗性情境;測試系統穩健性 | 對抗性測試:行人在最糟時機闖越;車輛在最短警告距離下超車 |
| 感知模擬 | 模擬感測器資料(攝影機、雷達、毫米波)包含天氣效應、光線變化、感測器降級 | 感測器模擬保真度是最難的模擬挑戰;模擬雷達與真實雷達仍有差距 |
| 閉環測試 | Waymo的模擬是閉環的——自駕車的決策影響模擬環境;其他代理對自駕車做出反應 | 閉環防止模擬給自駕車比現實更容易的情境而「作弊」 |
| 軟體在環(SIL) | 在模擬內部運行實際生產版自駕軟體堆疊;而非簡化代理 | SIL確保模擬結果轉化為真實世界軟體行為 |
CarCraft規模為何重要
Waymo揭露的30萬倍模擬乘數代表自駕安全驗證的質性轉變,而不僅僅是量化提升。當一家公司能夠在一夜之間運行150億模擬英里,它可以做到在任何更小規模下都不可能實現的事。
首先,迴歸測試變成完全持續的流程。每次軟體程式碼變更——無論多麼微小——都可以在部署前針對完整的歷史情境庫進行驗證。如果行人過路處理器的補丁導致六個月前在鳳凰城發現的路口情境出現意外行為,迴歸測試會在模擬中發現這個問題,然後才會影響到任何車輛。這是網路軟體工程的標準做法;CarCraft將其應用於實體安全關鍵系統。
其次,對抗性情境生成變得具有統計意義。Waymo明確設計其他代理以最壞方式行動的情境——在最糟時機闖越的行人、以最小可能警告距離超車自駕車的車輛。以每天150億模擬英里的速度,Waymo每週可以生成數億個對抗性情境實例,建立系統能穩健處理最壞情況行為的信心。
第四節——模擬與現實的差距
| 差距類型 | Tesla挑戰 | Waymo挑戰 | 緩解措施 |
|---|---|---|---|
| 感測器保真度差距 | 攝影機模擬必須匹配真實攝影機(鏡頭畸變、曝光、HDR行為);持續改善中但差距仍存在 | 雷達模擬比攝影機更難;模擬點雲與真實感測器雜訊模式存在差異 | 兩者:神經渲染(NeRF風格)從真實資料生成逼真感測器模擬 |
| 長尾行為差距 | 影子模式提供真實世界罕見事件;模擬重新執行但無法生成真正的新情境 | Waymo真實車隊較小;必須更依賴模擬處理邊緣案例 | 兩者使用程式化生成;真實世界資料對新情境仍不可替代 |
| 訓練分佈差距 | 在模擬上訓練的模型可能在真實感測器資料上表現不同(域轉移) | 相同挑戰;需要域適應技術 | 兩者:主要在真實世界資料上訓練;模擬用於邊緣案例擴增 |
| 對抗性穩健性 | FSD主要在真實世界上訓練;對抗性情境覆蓋取決於模擬品質 | CarCraft對抗性測試是核心差異化因素;明確測試最壞情況代理行為 | Waymo明確的對抗性計畫是有文獻記載的優勢 |
| 運算成本 | 每天150億模擬英里需要大量運算;Dojo為此工作負載設計 | 相同;CarCraft吞吐量需要Google TPU規模 | 兩者都有運算規模解決方案;Waymo受益於Google基礎設施 |
| 驗證完整性 | 多少模擬英里等於「足夠安全」?業界無統一標準 | 相同挑戰;模擬永遠無法窮盡所有情況 | 兩者都使用模擬加真實世界加正式安全論證 |
第五節——模擬基準測試評分卡
| 維度 | Tesla | Waymo | 優勢 |
|---|---|---|---|
| 模擬規模 | 非常高——約600萬輛影子模式車輛(估算值)乘以每日英里數;Dojo處理輸出 | 非常高——每天150億模擬英里(Waymo揭露) | 不同方法;Waymo模擬量更高;Tesla真實世界影子量更高 |
| 影子模式/真實世界訊號 | 決定性——600萬輛車隊(估算值)乘以持續影子模式等於無可匹敵的真實世界訓練訊號 | 真實車隊較小;依靠模擬彌補 | Tesla |
| 對抗性測試計畫 | 公開文獻較少 | 決定性——CarCraft對抗性情境是核心方法論(Waymo揭露) | Waymo |
| 閉環保真度 | 同時使用SIL和真實世界驗證 | 閉環SIL CarCraft是業界標竿 | Waymo |
| 感測器模擬保真度 | 攝影機模擬持續改善;神經渲染研究活躍 | 雷達模擬比攝影機更難;Waymo大量投資 | 大致相當;不同感測器 |
| CI/CD整合 | Tesla透過OTA部署FSD;透過模擬進行迴歸測試 | Waymo使用模擬作為部署把關 | 兩者均成熟 |
總體結論
Tesla的影子模式在約600萬輛車輛(估算值)規模下,是自駕行業中最強大的真實世界訓練訊號。沒有其他自駕計畫能夠取得與這一規模的車隊相當的真實駕駛資料量,每天在Tesla車輛運營的每個地區產生數百萬次影子模式比對。
Waymo的CarCraft以每天150億模擬英里(Waymo揭露)的規模,是商業自駕開發中最先進的模擬環境。比Waymo真實車隊高出30萬倍的模擬乘數允許在情境覆蓋、迴歸測試和對抗性測試上實現真實英里數單獨無法提供的規模與嚴謹性。
兩種方法是互補的,而非競爭關係。Tesla在真實世界資料量和影子模式訊號豐富性上明顯勝出。Waymo在模擬嚴謹性、對抗性測試覆蓋和閉環保真度上明顯勝出。兩者對完整的自駕安全論證都不可或缺——這也是為何兩家公司都同時採用兩種方法。
注意: 所有標注「(估算值)」的數據均來自2026年中期的公開揭露、產業研究、分析師估算及已報導資料。Waymo每天150億模擬英里的數據來自Waymo的公開安全揭露。本文不構成投資建議。
來源
- Waymo模擬與CarCraft — Waymo部落格 ↗
- Tesla Dojo與FSD訓練 — Tesla AI ↗
- 自動駕駛模擬與測試方法論 — 蘭德公司 ↗
- Tesla影子模式與自動標注 — Tesla AI Day 2022 ↗
- Waymo 150億模擬英里 — Waymo安全報告 ↗