2026-06-18 — views

Physical AI 模擬基礎設施 — Tesla Rerender 對決 Waymo CarCraft 與合成資料競賽

Tesla 神經重繪引擎與 Waymo CarCraft 平台，代表兩種截然不同的大規模合成訓練資料生成策略。

Physical AI 基準系列第 109 篇 — Physical AI 模擬基礎設施：Tesla 重繪引擎與 Waymo 模擬平台如何生成合成訓練資料、測試罕見邊緣情境，並放大真實道路里程的價值

真實世界的駕駛資料不僅蒐集成本高昂，標注困難，且根本無法完全控制。你無法在需要時立即製造降雨來測試模型的濕路行為，也無法強制製造險境來驗證緊急應對，更無法讓同一個路口場景重複執行一萬次來量測變異數。模擬透過大規模生成合成駕駛情境來解決這些問題——而一家公司的模擬基礎設施品質，直接決定了訓練資料的品質，進而影響模型的品質。

Tesla 和 Waymo 建立了截然不同的模擬方式，反映出各自更廣泛的架構哲學。Tesla 的重繪引擎從真實攝影機畫面出發，將其重建為高度寫實的合成變體，為視覺優先系統消除了模擬與現實之間的落差。Waymo 的 CarCraft 平台則建構必須同時模擬光達、攝影機與雷達的三維世界模型——這是更複雜的物理問題，但能產出更豐富的多感測器合成資料集。要深入分析 2026 年 Physical AI 競賽的現況，理解這兩種方法是不可或缺的背景知識。

第一節 — 模擬對自駕訓練的作用

模擬功能	為何重要	缺少模擬的後果
罕見邊緣情境生成	真實世界資料嚴重偏向正常駕駛；險境、異常行人行為、感測器故障極為罕見——模擬可按需生成	模型在生產環境遇到邊緣情境前從未見過；存在災難性失敗風險
反事實測試	詢問「如果車輛向左轉而非向右轉會發生什麼？」——只有模擬能回答	無法以真實車輛安全測試替代決策
超越真實資料的規模	模擬每天可生成數百萬個訓練情境；真實車隊僅生成數千個	資料需求龐大的模型受限於真實資料蒐集速度
感測器模型保真度	精確模擬光達／攝影機／雷達在不同天氣、光線、感測器降級條件下的感知	不實際降級感測器就無法針對感測器衰退進行訓練
回歸測試	每次軟體發布前在數千個模擬情境中測試；在影響真實車輛前捕捉回歸問題	每次軟體更新都是活體實驗；風險更高
安全關鍵系統驗證	監管機構越來越多地接受模擬作為功能安全驗證的一部分（ISO 26262、SOTIF）	必須在真實道路上進行所有安全驗證——速度極慢

關鍵洞察在於：模擬並非取代真實世界資料，而是放大它。一個真實世界的險境事件，若妥善擷取並輸入重繪或三維重建管線，可生成數千個訓練變體：不同光線、不同車速、不同行人軌跡。車隊是種子；模擬是乘數。

第二節 — Tesla 的模擬方式：神經渲染與重繪引擎

Tesla 的模擬策略在架構上與其純視覺、無光達的方案緊密結合。由於 FSD 只透過攝影機感知，最逼真的合成訓練資料是寫實重繪的攝影機影像——而非抽象的三維點雲或物理引擎輸出。

元件	功能	為何重要
重繪引擎	擷取車隊的真實影片片段，在物理精確的三維空間中重建場景；然後以不同視角、光線條件、天氣或插入合成物體（車輛、行人）重新渲染場景	在鳳凰城發生過一次的險境可以用不同變體重繪一萬次——有效地將一個真實事件放大為數千個訓練範例
神經輻射場（NeRF）/ 三維高斯潑灑	從多個攝影機角度建立寫實三維表示的神經場景重建方法；Tesla 使用這些技術的專有變體（估計）	允許以與 FSD 完全一致的攝影機解析度進行寫實重繪；無「模擬到現實落差」問題，因為基礎場景是真實的
自動標注管線	FSD 本身標注重建場景——若模型在原始片段中識別出行人，該標注會傳播至所有重繪變體	降低人工標注成本；標注生成與模型能力同步擴展
Dojo 整合	模擬情境直接輸入 Dojo 訓練執行；計算與模擬協同設計	緊密整合意味著從實驗到模型的迭代週期更快
核心優勢	無模擬到現實落差——渲染場景高度寫實，因為它始於真實感測器資料；模型訓練的內容與生產環境中看到的完全一致	傳統合成模擬存在「模擬到現實落差」：以合成視覺訓練的模型在真實攝影機影像上可能表現不同
規模	Tesla 聲稱能夠生成數十億個模擬訓練里程（估計）；確切數字未披露	比僅靠真實世界蒐集多出數個數量級的資料

第三節 — Waymo 的模擬方式：CarCraft 與閉迴路測試

Waymo 的模擬策略反映其多感測器、依賴高精地圖的架構。CarCraft 必須同時模擬光達點雲、攝影機影像與雷達回波——這是比純攝影機重繪困難得多的物理問題。

元件	功能
CarCraft	Waymo 的內部模擬平台（公開披露）；每天執行數百萬英里的模擬駕駛（估計）；從高精地圖建模車輛、行人、自行車騎士、道路幾何
從真實駕駛中擷取情境	真實世界事件與險境被擷取、匿名化並輸入模擬以生成變體；類似 Tesla 的重繪概念，但應用於三維世界模型而非攝影機影像
多感測器模擬	必須同時模擬光達（三維點雲）、攝影機（二維影像）和雷達（距離加速度）；比純攝影機模擬更複雜
行為建模	模擬其他道路使用者的逼真行為（切線的駕駛、闖紅燈的行人、搖晃的自行車騎士）；vs. 簡單模擬的關鍵差異因素
閉迴路測試	模擬車輛的決策影響模擬世界；其他模擬代理人對自駕車的選擇做出反應
規模	Waymo 已披露每天執行數千萬模擬英里（估計）
模擬到現實的挑戰	Waymo 的光達模擬必須精確建模雷射脈衝與表面、逆反射材料、玻璃的交互作用——比攝影機影像合成更困難的物理問題（估計）

閉迴路能力是 Waymo 最重要的模擬優勢。在開迴路測試中，自駕車的決策不影響模擬中接下來發生的事——無論自駕車做什麼，情境都以相同方式展開。在閉迴路測試中，模擬世界會回應自駕車的行動：如果自駕車煞車，後方的模擬車必須反應；如果自駕車換道，模擬的自行車騎士必須做出反應。這能捕捉到一整類失敗模式——自駕車自身行為造成危險情境的場景——而這是開迴路測試無法偵測的。

第四節 — NVIDIA Omniverse 作為產業基礎設施

維度	NVIDIA 提供的內容	使用者
Omniverse 平台	建立在 USD（通用場景描述）上的物理精確模擬環境；用於機器人模擬、自駕測試和工業數位孿生	在機器人領域廣泛採用（Figure AI、波士頓動力等）；部分自駕公司用於非生產模擬（估計）
Isaac Sim	Omniverse 中的 NVIDIA 機器人模擬平台；物理精確的感測器模型；ROS2 相容	人形機器人開發；非 Tesla 的主要自駕模擬（Tesla 建構專有系統）
Drive Sim	Omniverse 中的 NVIDIA 自駕專用模擬；光達／攝影機／雷達感測器模型；天氣模擬；多家自駕公司使用（Cruise、比亞迪等——估計）	Waymo 主要使用專有 CarCraft；部分 OEM 使用 NVIDIA Drive Sim
合成資料生成	NVIDIA 平台可大規模生成有標注的合成訓練資料	無法建構專有模擬的小型自駕程式和機器人新創公司

第五節 — 模擬基準指標

指標	衡量內容	Tesla（估計）	Waymo（估計）
每日模擬里程	生成的合成駕駛體驗量	每日數十億英里聲稱（未獨立驗證）	每日數千萬英里（已披露）
情境資料庫大小	可用於訓練／測試的不同邊緣情境數量	未披露	未披露
模擬到現實保真度	模擬與真實感測器輸出的接近程度	極高（從真實資料重繪）；落差極小	高（多感測器物理模型）；罕見表面存在一定落差（估計）
閉迴路能力	模擬自駕車決策影響模擬世界	是（估計）	是（CarCraft——已披露）
回歸測試覆蓋率	每次軟體發布測試的情境數	未披露	未披露
核心優勢	神經重繪消除攝影機模擬到現實落差；從真實事件擴展邊緣情境	多感測器模擬；強健的閉迴路；成熟平台（估計）

第六節 — 對 Physical AI 競賽的戰略意涵

模擬基礎設施是 Physical AI 競賽的隱形乘數。更好的模擬產生更好的訓練資料，更好的訓練資料產生更好的模型，更好的模型讓車輛更安全，更安全的車輛促使更多部署，更多部署產生更多真實世界資料以輸入模擬——形成正向飛輪。

戰略維度	Tesla 位置	Waymo 位置
模擬到模型回饋迴路	快速——Dojo 整合意味著從重繪到訓練執行的緊密週期（估計）	成熟——CarCraft 已大規模運行多年
資料飛輪	600 萬輛以上 FSD 車輛生成真實畫面以輸入重繪引擎	車隊較小但每輛車感測器資料品質更高
模擬到現實落差	攝影機近乎為零（從真實畫面重繪）	攝影機低；光達罕見表面交互作用存在一定殘留（估計）
多感測器模擬能力	不需要——純視覺；未建構（估計）	架構所需；已內建於 CarCraft
競爭護城河	重繪引擎綁定 600 萬輛車隊——競爭對手無法複製資料	CarCraft 規模與閉迴路成熟度建立於 10 年以上

結論是：模擬品質是每項其他指標的隱形乘數。Tesla 的重繪方式架構優雅，與純視覺賭注緊密結合。Waymo 的 CarCraft 是更複雜、更昂貴的多感測器模擬，對其感測器冗餘架構而言是必要的——其閉迴路能力是捕捉自駕車誘發失敗模式的真正優勢。

兩種方式都沒有明確優劣之分——它們是對「自動駕駛正確架構應該是什麼」兩種不同賭注的連貫實作。

注意： 標注「（估計）」的數字是基於 2026 年中期公開資訊的方向性估計。確切模擬量和內部平台細節尚未獨立驗證。本文不構成投資建議。