2026-06-18 — views
Physical AI 模擬基礎設施 — Tesla Rerender 對決 Waymo CarCraft 與合成資料競賽
Tesla 神經重繪引擎與 Waymo CarCraft 平台,代表兩種截然不同的大規模合成訓練資料生成策略。
Physical AI 基準系列第 109 篇 — Physical AI 模擬基礎設施:Tesla 重繪引擎與 Waymo 模擬平台如何生成合成訓練資料、測試罕見邊緣情境,並放大真實道路里程的價值
真實世界的駕駛資料不僅蒐集成本高昂,標注困難,且根本無法完全控制。你無法在需要時立即製造降雨來測試模型的濕路行為,也無法強制製造險境來驗證緊急應對,更無法讓同一個路口場景重複執行一萬次來量測變異數。模擬透過大規模生成合成駕駛情境來解決這些問題——而一家公司的模擬基礎設施品質,直接決定了訓練資料的品質,進而影響模型的品質。
Tesla 和 Waymo 建立了截然不同的模擬方式,反映出各自更廣泛的架構哲學。Tesla 的重繪引擎從真實攝影機畫面出發,將其重建為高度寫實的合成變體,為視覺優先系統消除了模擬與現實之間的落差。Waymo 的 CarCraft 平台則建構必須同時模擬光達、攝影機與雷達的三維世界模型——這是更複雜的物理問題,但能產出更豐富的多感測器合成資料集。要深入分析 2026 年 Physical AI 競賽的現況,理解這兩種方法是不可或缺的背景知識。
第一節 — 模擬對自駕訓練的作用
| 模擬功能 | 為何重要 | 缺少模擬的後果 |
|---|---|---|
| 罕見邊緣情境生成 | 真實世界資料嚴重偏向正常駕駛;險境、異常行人行為、感測器故障極為罕見——模擬可按需生成 | 模型在生產環境遇到邊緣情境前從未見過;存在災難性失敗風險 |
| 反事實測試 | 詢問「如果車輛向左轉而非向右轉會發生什麼?」——只有模擬能回答 | 無法以真實車輛安全測試替代決策 |
| 超越真實資料的規模 | 模擬每天可生成數百萬個訓練情境;真實車隊僅生成數千個 | 資料需求龐大的模型受限於真實資料蒐集速度 |
| 感測器模型保真度 | 精確模擬光達/攝影機/雷達在不同天氣、光線、感測器降級條件下的感知 | 不實際降級感測器就無法針對感測器衰退進行訓練 |
| 回歸測試 | 每次軟體發布前在數千個模擬情境中測試;在影響真實車輛前捕捉回歸問題 | 每次軟體更新都是活體實驗;風險更高 |
| 安全關鍵系統驗證 | 監管機構越來越多地接受模擬作為功能安全驗證的一部分(ISO 26262、SOTIF) | 必須在真實道路上進行所有安全驗證——速度極慢 |
關鍵洞察在於:模擬並非取代真實世界資料,而是放大它。一個真實世界的險境事件,若妥善擷取並輸入重繪或三維重建管線,可生成數千個訓練變體:不同光線、不同車速、不同行人軌跡。車隊是種子;模擬是乘數。
第二節 — Tesla 的模擬方式:神經渲染與重繪引擎
Tesla 的模擬策略在架構上與其純視覺、無光達的方案緊密結合。由於 FSD 只透過攝影機感知,最逼真的合成訓練資料是寫實重繪的攝影機影像——而非抽象的三維點雲或物理引擎輸出。
| 元件 | 功能 | 為何重要 |
|---|---|---|
| 重繪引擎 | 擷取車隊的真實影片片段,在物理精確的三維空間中重建場景;然後以不同視角、光線條件、天氣或插入合成物體(車輛、行人)重新渲染場景 | 在鳳凰城發生過一次的險境可以用不同變體重繪一萬次——有效地將一個真實事件放大為數千個訓練範例 |
| 神經輻射場(NeRF)/ 三維高斯潑灑 | 從多個攝影機角度建立寫實三維表示的神經場景重建方法;Tesla 使用這些技術的專有變體(估計) | 允許以與 FSD 完全一致的攝影機解析度進行寫實重繪;無「模擬到現實落差」問題,因為基礎場景是真實的 |
| 自動標注管線 | FSD 本身標注重建場景——若模型在原始片段中識別出行人,該標注會傳播至所有重繪變體 | 降低人工標注成本;標注生成與模型能力同步擴展 |
| Dojo 整合 | 模擬情境直接輸入 Dojo 訓練執行;計算與模擬協同設計 | 緊密整合意味著從實驗到模型的迭代週期更快 |
| 核心優勢 | 無模擬到現實落差——渲染場景高度寫實,因為它始於真實感測器資料;模型訓練的內容與生產環境中看到的完全一致 | 傳統合成模擬存在「模擬到現實落差」:以合成視覺訓練的模型在真實攝影機影像上可能表現不同 |
| 規模 | Tesla 聲稱能夠生成數十億個模擬訓練里程(估計);確切數字未披露 | 比僅靠真實世界蒐集多出數個數量級的資料 |
第三節 — Waymo 的模擬方式:CarCraft 與閉迴路測試
Waymo 的模擬策略反映其多感測器、依賴高精地圖的架構。CarCraft 必須同時模擬光達點雲、攝影機影像與雷達回波——這是比純攝影機重繪困難得多的物理問題。
| 元件 | 功能 |
|---|---|
| CarCraft | Waymo 的內部模擬平台(公開披露);每天執行數百萬英里的模擬駕駛(估計);從高精地圖建模車輛、行人、自行車騎士、道路幾何 |
| 從真實駕駛中擷取情境 | 真實世界事件與險境被擷取、匿名化並輸入模擬以生成變體;類似 Tesla 的重繪概念,但應用於三維世界模型而非攝影機影像 |
| 多感測器模擬 | 必須同時模擬光達(三維點雲)、攝影機(二維影像)和雷達(距離加速度);比純攝影機模擬更複雜 |
| 行為建模 | 模擬其他道路使用者的逼真行為(切線的駕駛、闖紅燈的行人、搖晃的自行車騎士);vs. 簡單模擬的關鍵差異因素 |
| 閉迴路測試 | 模擬車輛的決策影響模擬世界;其他模擬代理人對自駕車的選擇做出反應 |
| 規模 | Waymo 已披露每天執行數千萬模擬英里(估計) |
| 模擬到現實的挑戰 | Waymo 的光達模擬必須精確建模雷射脈衝與表面、逆反射材料、玻璃的交互作用——比攝影機影像合成更困難的物理問題(估計) |
閉迴路能力是 Waymo 最重要的模擬優勢。在開迴路測試中,自駕車的決策不影響模擬中接下來發生的事——無論自駕車做什麼,情境都以相同方式展開。在閉迴路測試中,模擬世界會回應自駕車的行動:如果自駕車煞車,後方的模擬車必須反應;如果自駕車換道,模擬的自行車騎士必須做出反應。這能捕捉到一整類失敗模式——自駕車自身行為造成危險情境的場景——而這是開迴路測試無法偵測的。
第四節 — NVIDIA Omniverse 作為產業基礎設施
| 維度 | NVIDIA 提供的內容 | 使用者 |
|---|---|---|
| Omniverse 平台 | 建立在 USD(通用場景描述)上的物理精確模擬環境;用於機器人模擬、自駕測試和工業數位孿生 | 在機器人領域廣泛採用(Figure AI、波士頓動力等);部分自駕公司用於非生產模擬(估計) |
| Isaac Sim | Omniverse 中的 NVIDIA 機器人模擬平台;物理精確的感測器模型;ROS2 相容 | 人形機器人開發;非 Tesla 的主要自駕模擬(Tesla 建構專有系統) |
| Drive Sim | Omniverse 中的 NVIDIA 自駕專用模擬;光達/攝影機/雷達感測器模型;天氣模擬;多家自駕公司使用(Cruise、比亞迪等——估計) | Waymo 主要使用專有 CarCraft;部分 OEM 使用 NVIDIA Drive Sim |
| 合成資料生成 | NVIDIA 平台可大規模生成有標注的合成訓練資料 | 無法建構專有模擬的小型自駕程式和機器人新創公司 |
第五節 — 模擬基準指標
| 指標 | 衡量內容 | Tesla(估計) | Waymo(估計) |
|---|---|---|---|
| 每日模擬里程 | 生成的合成駕駛體驗量 | 每日數十億英里聲稱(未獨立驗證) | 每日數千萬英里(已披露) |
| 情境資料庫大小 | 可用於訓練/測試的不同邊緣情境數量 | 未披露 | 未披露 |
| 模擬到現實保真度 | 模擬與真實感測器輸出的接近程度 | 極高(從真實資料重繪);落差極小 | 高(多感測器物理模型);罕見表面存在一定落差(估計) |
| 閉迴路能力 | 模擬自駕車決策影響模擬世界 | 是(估計) | 是(CarCraft——已披露) |
| 回歸測試覆蓋率 | 每次軟體發布測試的情境數 | 未披露 | 未披露 |
| 核心優勢 | 神經重繪消除攝影機模擬到現實落差;從真實事件擴展邊緣情境 | 多感測器模擬;強健的閉迴路;成熟平台(估計) |
第六節 — 對 Physical AI 競賽的戰略意涵
模擬基礎設施是 Physical AI 競賽的隱形乘數。更好的模擬產生更好的訓練資料,更好的訓練資料產生更好的模型,更好的模型讓車輛更安全,更安全的車輛促使更多部署,更多部署產生更多真實世界資料以輸入模擬——形成正向飛輪。
| 戰略維度 | Tesla 位置 | Waymo 位置 |
|---|---|---|
| 模擬到模型回饋迴路 | 快速——Dojo 整合意味著從重繪到訓練執行的緊密週期(估計) | 成熟——CarCraft 已大規模運行多年 |
| 資料飛輪 | 600 萬輛以上 FSD 車輛生成真實畫面以輸入重繪引擎 | 車隊較小但每輛車感測器資料品質更高 |
| 模擬到現實落差 | 攝影機近乎為零(從真實畫面重繪) | 攝影機低;光達罕見表面交互作用存在一定殘留(估計) |
| 多感測器模擬能力 | 不需要——純視覺;未建構(估計) | 架構所需;已內建於 CarCraft |
| 競爭護城河 | 重繪引擎綁定 600 萬輛車隊——競爭對手無法複製資料 | CarCraft 規模與閉迴路成熟度建立於 10 年以上 |
結論是:模擬品質是每項其他指標的隱形乘數。Tesla 的重繪方式架構優雅,與純視覺賭注緊密結合。Waymo 的 CarCraft 是更複雜、更昂貴的多感測器模擬,對其感測器冗餘架構而言是必要的——其閉迴路能力是捕捉自駕車誘發失敗模式的真正優勢。
兩種方式都沒有明確優劣之分——它們是對「自動駕駛正確架構應該是什麼」兩種不同賭注的連貫實作。
注意: 標注「(估計)」的數字是基於 2026 年中期公開資訊的方向性估計。確切模擬量和內部平台細節尚未獨立驗證。本文不構成投資建議。
來源
- Tesla AI Day simulation presentation — Tesla ↗
- Waymo simulation — CarCraft blog post ↗
- NVIDIA Omniverse and Isaac Sim — NVIDIA ↗
- Neural Radiance Fields survey — arXiv ↗
- SOTIF ISO 21448 autonomous driving safety — ISO ↗