2026-06-18 — views
2026 Physical AI 算力競賽 — NVIDIA B200 vs Tesla Dojo vs Google TPU:自動駕駛與機器人訓練基礎設施基準測試
NVIDIA B200 估計 9 exaFLOPS 驅動幾乎所有自動駕駛 AI 訓練。Tesla Dojo 押注自研晶片,Waymo 透過 Alphabet 使用 Google TPU。算力決定勝負。
Physical AI 基準測試系列第 205 篇 — 2026 Physical AI 算力競賽:NVIDIA H100/B200 vs Tesla Dojo vs Google TPU — 自動駕駛與機器人 AI 訓練基礎設施基準測試
Physical AI 競賽,從本質上看,是一場算力競賽。能在單位時間內執行更多訓練實驗的公司,就能更快地進行迭代、更快地發現更好的駕駛與機器人策略,並最終更快地部署更優質的產品。這是大型語言模型的教訓直接應用於物理系統:規模定律有效,而擁有更多訓練算力的實體,在中長期時間軸上將勝出。2026 年,三大訓練算力生態系正在競逐 Physical AI 堆疊的主導地位——NVIDIA 的 GPU 叢集(H100、H200、Blackwell B200)、Tesla 的自研 Dojo 超級電腦,以及 Google 的 TPU 基礎設施(透過 Alphabet 所有權由 Waymo 使用)。理解每個系統的架構、成本結構與戰略意涵,是判斷誰能在這個十年後半段贏得 AV 與機器人競賽的關鍵。
第一節 — 為什麼算力是 Physical AI 的決戰場
Physical AI 的進步速度與大型語言模型一樣受到算力限制。AV 公司能投入到神經網路訓練的 GPU 小時越多,脫離率下降越快、模型泛化的地理覆蓋範圍越廣、模型能正確處理的邊緣案例尾部越長。規模定律在 Physical AI 中不是希望,而是已觀察到的實證規律,每一位認真的競爭者都在圍繞它建構自己的路線圖。
| 原則 | 說明 | Physical AI 意涵 |
|---|---|---|
| 規模定律適用 | 神經網路性能隨著算力、資料與更大模型的增加而可預測地提升(Chinchilla 規模定律;OpenAI 規模論文) | 更多訓練算力 + 更多資料 = 更好的駕駛或機器人策略——與 LLM 隨規模改善的機制相同 |
| 兩種截然不同的算力環境 | 訓練算力(叢集規模 GPU/TPU,數千顆晶片)vs 推論算力(車載晶片,執行已部署的模型) | 不同的最佳化目標:訓練 = 最大化吞吐量並最小化每次實驗的成本;推論 = 最小化每次決策的延遲與功耗 |
| 訓練資料量 | Tesla 車隊每週估計產生數千萬英里的訓練資料(估計);處理這些資料需要龐大的訓練算力 | 若訓練算力不足,資料飛輪就會減速——收集的資料無法及時處理;資料量優勢將被白白浪費 |
| 迭代速度的複利效應 | 更快的訓練 = 每單位時間更多的實驗 = 更快的架構發現;2-3 年內,這種複利將帶來可觀的模型品質差距 | 每美元能執行 3 倍訓練實驗的公司,發現更好策略的速度快 3 倍;複利在 24-36 個月內產生巨大差距 |
| 推論延遲攸關安全 | 時速 60 英里下,100ms 的感知延遲 = 2.7 公尺的盲行距離 | 車載推論必須足夠快速,以便在車輛行駛危險距離之前對道路危險做出反應 |
訓練算力是從資料中建構 AV 與機器人 AI 模型的「實驗室」。它在資料中心的大型 GPU 或 TPU 叢集上運行——數千至數萬顆晶片。這場競賽的核心在於:每 FLOP 的成本、叢集吞吐量、互連頻寬,以及大型模型所需的記憶體容量。Physical AI 模型通常規模龐大:基於 Transformer 的感知模型、機器人操作的擴散策略、端對端的視訊到動作神經網路。在這些模型上、針對數十億個訓練幀執行梯度下降,需要以 exaFLOPS 為衡量單位的算力規模。
推論算力是「車輛」端——部署的模型在物理系統上即時運行。對 AV 而言,這是嵌入汽車的晶片,必須在毫秒內處理八路攝影機的影像、執行完整神經網路,並輸出轉向、加速與制動指令。Tesla FSD HW4 晶片(估計 350+ TOPS(估計))和 Waymo 的車載算力(依世代不同採用 NVIDIA DRIVE 或自研方案)構成這場競賽的推論端。
AMD 因素真實存在但在 2026 年仍居次要地位。AMD MI300X 提供 192 GB HBM3 記憶體(多於 H100 的 80 GB)和估計 2.6 exaFLOPS FP8(估計)——具競爭力的原始規格。但 CUDA 生態系統的鎖定效應使切換成本高昂。幾乎所有 AV 訓練程式碼都是為 CUDA 編寫的;AMD 的 ROCm 軟體堆疊成熟度較低。部分 AV 公司可能基於成本考量使用 AMD 叢集,但 NVIDIA 生態系統主導地位是 2026 年業界的預設選擇。
第二節 — NVIDIA 在 AV 與機器人訓練叢集的主導地位
NVIDIA 為幾乎所有沒有自研訓練晶片的 AV 與機器人公司提供訓練算力基礎設施。H100、H200 和 Blackwell B200 構成標準堆疊。NVIDIA 的 Isaac 模擬套件(Isaac Lab、Isaac Gym)為機器人訓練資料生成提供 GPU 加速物理模擬。DRIVE 平台則為沒有自研晶片的 AV 公司提供車載推論。
| NVIDIA 晶片 | 規格 | Physical AI 應用場景 | 價格 / 供應(估計) |
|---|---|---|---|
| H100 SXM5 | 80 GB HBM3;估計 3.35 exaFLOPS FP8(估計);NVLink 4.0;700W TDP;DGX H100 = 8 顆 H100 | 2024-2025 年幾乎所有 AV 公司的主要訓練晶片;Waymo、Aurora、Figure AI、Agility、Boston Dynamics Atlas;用於訓練感知模型、運動預測、軌跡優化 | 估計每顆 $25K-$30K(估計);DGX H100 系統估計 $200K-$250K(估計);雲端 H100:估計 $2-$3/小時/GPU(估計) |
| H200 SXM5 | 141 GB HBM3e(比 H100 多 75% 記憶體);計算受限工作負載下訓練吞吐量與 H100 相同;記憶體受限任務下頻寬優勢明顯 | 大型模型 Physical AI 訓練(Figure AI 的 VLM、Tesla 的端對端模型等視覺語言模型);更高記憶體容量支援更大的批次大小而不溢出 | 估計每顆 $30K-$40K(估計);2024-2025 部署週期中 H100 的繼任者 |
| B100 / B200(Blackwell) | B200:估計 192 GB HBM3e(估計);估計 9 exaFLOPS FP8(估計)——接近 H100 的 3 倍;NVLink 5.0;顯著更高的記憶體頻寬 | 下一代 AV 訓練;Figure AI、Tesla、Aurora 可能在 2025-2026 年將訓練叢集過渡到 Blackwell;每顆晶片 3 倍吞吐量可按比例縮短訓練時間或在相同時間訓練更大模型 | 估計每顆 $35K-$45K(估計);2025-2026 年產能爬坡;Blackwell 早期供不應求 |
| Jetson AGX Orin(推論) | 275 TOPS 車載推論平台;64 GB LPDDR5;專為邊緣 AI 推論設計 | Agility Robotics Digit 使用 Jetson 等級算力;Boston Dynamics Atlas 開發;Waymo 和 Tesla 車輛未採用(兩者均使用自研晶片) | 估計開發者套件 $1,099(估計);量產模組定價更低 |
| NVIDIA DRIVE 平台 | DRIVE Orin:254 TOPS/顆;DRIVE Thor(繼任):估計 2,000 TOPS(估計) | Waymo Gen 5 據報使用 NVIDIA 硬體;多家 AV 新創使用 DRIVE 平台;沒有自研晶片的公司的標準 AV 推論算力 | DRIVE Orin 量產定價估計 $500-$2,000/車(估計);DRIVE Thor 定價估計更高 |
| NVIDIA Isaac(機器人) | Isaac ROS:機器人中間件;Isaac Lab:強化學習模擬框架;Isaac Gym:GPU 加速物理模擬 | Figure AI、Agility Robotics 等使用 NVIDIA Isaac 模擬堆疊生成合成訓練資料;GPU 加速模擬能產生比實體採集更多樣的訓練場景 | 軟體:開源;硬體:Isaac 模擬工作負載所需的標準 GPU 叢集 |
在叢集規模下,經濟影響相當顯著。一個 10,000 顆 H100 的叢集——認真進行 AV 訓練所需的規模——僅硬體成本就估計 $2.5 億-$3 億美元(估計),還不含資料中心基礎設施、電力和冷卻費用。轉向 Blackwell B200(估計每顆 9 exaFLOPS vs H100 的估計 3.35 exaFLOPS)意味著以相同資本支出獲得 3 倍的訓練吞吐量,或以大約三分之一的硬體數量實現相同吞吐量。這就是為什麼 B200 的供應情況和定價是 2025-2026 年 Physical AI 競賽中最具戰略意義的變數之一。
第三節 — Tesla Dojo:自研訓練基礎設施
Tesla 的 Dojo 超級電腦是 Physical AI 領域最雄心勃勃的算力基礎設施差異化佈局。Tesla 沒有租用 NVIDIA GPU 或使用雲端 TPU,而是打造了自研訓練晶片(D1)、自研訓練磁磚(25 顆 D1 晶片)和自研訓練機櫃(ExaPOD,120 個磁磚)。戰略邏輯在於:Tesla 的特定訓練工作負載——處理來自 600 萬輛以上車隊的數億個行車記錄儀視訊片段——足夠專業化,以至於針對此工作負載優化的專用晶片,在這項特定任務上的每 FLOP 成本將優於通用 GPU 訓練。
| Dojo 維度 | 現狀 | 戰略意涵 | 風險 / 不確定性 |
|---|---|---|---|
| D1 晶片架構 | TSMC 7nm 製程;估計每顆 362 TFLOPS FP32(估計);每個訓練磁磚 25 顆 D1;磁磚內高頻寬晶片對晶片互連;專為視訊輸入神經網路訓練設計(FSD 主要訓練工作負載) | D1 架構針對 Tesla 特定工作負載最佳化:處理數百萬小時的行車記錄儀視訊用於 FSD 神經網路訓練;磁磚內晶片對晶片互連頻寬(估計約 10 TB/s)針對視訊訓練的梯度同步模式進行調優 | D1 的性能優勢具工作負載特異性;對於通用 LLM 訓練,H100 或 B200 更優;對於 Tesla 的視訊密集工作負載,D1 的互連頻寬可能是優化所在 |
| ExaPOD 與叢集規模 | 一個訓練磁磚 = 25 顆 D1;一個 ExaPOD 機櫃 = 120 個訓練磁磚 = 3,000 顆 D1;多個 ExaPOD 機櫃構成 Dojo 超級電腦叢集;Tesla 目標每個 ExaPOD 訓練容量估計超過 1 exaFLOP(估計) | 在 exaFLOP 規模下,Dojo 每天能處理比 Tesla 先前基於 NVIDIA 的叢集顯著更多的 FSD 訓練資料;更高的訓練吞吐量帶來更多模型迭代和更快的脫離率改善 | Dojo 實際部署容量和每個 ExaPOD 的利用率未經公開確認;Tesla 提出了 exaFLOP 目標,但精確的規模化運營狀態為(估計) |
| 每 FLOP 成本 vs NVIDIA | Tesla 的論點:Dojo 的每 FLOP 成本低於為視訊處理工作負載租用 NVIDIA H100;如果 D1 對視訊的每 FLOP 成本比 H100 低估計 30-50%(估計),在一次 10-exaFLOP 訓練中,Dojo 可為 Tesla 節省估計 $1 億-$10 億(估計) | Dojo 的成本優勢(如果屬實)在 Tesla 的整個生命週期中複利累積:每次實驗的訓練成本更低 → 每筆預算更多的迭代 → 更快的模型改善 → 更好的 FSD → 更高的附加率 → 更多收入 → 更多訓練資料 | 成本優勢是 Tesla 的論點,尚未經過獨立驗證;NVIDIA 也透過 H100 和 B200 的競爭降低了有效雲端定價;實際 Dojo 成本優勢可能小於所聲稱的 |
| 訓練資料飛輪 | Tesla 600 萬輛以上具備 FSD 的車輛每週產生估計數千萬英里的訓練資料(估計);沒有消費者汽車車隊的競爭者無法複製這一資料量;Dojo 是這個獨特大型資料集的處理基礎設施 | Waymo 的訓練資料在數量上小一到兩個數量級(估計 3000 萬英里以上的商業無人駕駛里程 vs 估計 60 億英里以上的 Tesla 監督里程(估計));即使訓練基礎設施效率相當,Tesla 的資料量意味著其模型見過更多場景 | Tesla 的資料是監督資料(人工操作),不是無人駕駛資料;模型從人類駕駛行為中學習,其中包含人類駕駛錯誤作為訓練信號;監督資料與無人駕駛訓練資料的品質差異是一個合理的開放問題 |
| Dojo vs 租用 NVIDIA(戰略選擇) | Tesla 選擇建構自研訓練基礎設施而非租用雲端 NVIDIA GPU;高資本、高風險、高潛在回報的策略;如果 Dojo 按設計運作,Tesla 在 5-10 年內節省數十億美元的訓練成本 | 建構 vs 租用的決策被業界密切關注:如果 Dojo 成功,其他 AV 公司可能跟進;如果 Dojo 表現不及 NVIDIA,則驗證了所有競爭者的租用 NVIDIA 路線 | Tesla 已表示將繼續投資 Dojo;無論近期相對 NVIDIA 的表現如何,該策略都不會被放棄 |
第四節 — Waymo、Google TPU 與競爭對手訓練基礎設施
Waymo 的算力優勢是 AV 領域討論最少但可能最持久的優勢。作為 Alphabet 的子公司,Waymo 可以獲得 Google 的 TPU 基礎設施——全球最成熟、最具成本效益的 AI 訓練平台之一——且其條款未公開披露,但幾乎可以確定比公共雲端市場費率更為優惠。這是任何 AV 新創公司在不收購 Google 的情況下無法複製的結構性優勢。
| 算力方案 | 使用者 | 訓練能力 | Physical AI 相關性 |
|---|---|---|---|
| Google TPU v5e / v5p(Waymo) | Waymo(透過 Alphabet);Google 內部 AI 專案;競爭對手通常無法使用 | TPU v5p:估計每顆 459 TFLOPS BF16(估計);在大型 Google TPU 集群中部署(數千顆晶片);全球最成熟、最具成本效益的 AI 訓練平台之一 | Waymo 透過 Alphabet 獲得的 TPU 訪問權是相對必須租用公共雲端 GPU 的競爭對手的結構性優勢;成本實際上由 Alphabet 的基礎設施投資補貼;Waymo 以非公開市場費率獲得 TPU 容量 |
| NVIDIA H100 / B200 叢集(Aurora、Figure AI、Agility 等) | Aurora(AV 卡車);Figure AI(人形機器人,透過 OpenAI GPU 訪問);Agility Robotics;Boston Dynamics;大多數沒有自研算力的 AV 新創 | H100:估計 3.35 exaFLOPS FP8(估計);B200:估計 9 exaFLOPS FP8(估計);業界標準訓練平台;所有為 CUDA 編寫的 Physical AI 訓練程式碼原生運行 | 使用租用 NVIDIA H100 / B200 的競爭者支付市場費率(估計每 H100 $2-3/小時(估計));在大規模訓練中,這是相當可觀的運營支出;Aurora 的 AV 訓練成本是重要的預算項目;Figure AI 的 VLM 訓練透過合作夥伴關係使用 OpenAI 的基於 NVIDIA 的基礎設施 |
| AMD MI300X(新興) | 部分資料中心運營商;潛在的成本意識型 AV 公司 | MI300X:192 GB HBM3(H100 80 GB 的 2.4 倍);估計 2.6 exaFLOPS FP8(估計);在標價上與 H100 有價格競爭力 | AMD MI300X 技術上具競爭力,但 CUDA 生態系統鎖定限制了在 Physical AI 中的採用;所有主要 AV 訓練程式碼庫均針對 CUDA 優化;遷移到 ROCm 需要大量工程投入;AMD 正在獲得市場份額,但在 2026 年的 AV AI 訓練中仍是次要選擇 |
| Tesla FSD 晶片(車載推論) | Tesla 車輛(HW3、HW4);Tesla 矽晶片團隊內部設計 | HW3:144 TOPS(每輛車兩顆晶片);HW4:估計 350+ TOPS(估計);針對 Tesla FSD 神經網路推論優化的自訂架構 | 專為 Tesla FSD 模型設計的車載推論晶片:以低延遲即時處理 8 路攝影機影像通過神經網路;自研晶片相比使用 NVIDIA DRIVE 平台實現更緊密的硬體-軟體協同設計;Tesla 可針對其特定神經網路架構優化晶片設計 |
| Waymo 自研車載晶片(Gen 6) | Waymo Gen 5 和 Gen 6 車輛 | Waymo 未完整公開披露車載算力細節;Gen 5 捷豹 I-PACE 據報使用 NVIDIA 硬體;Gen 6 專用車型可能使用 Waymo 自研晶片以提升能效和降低成本 | Waymo 的 Gen 6 車型是優化車載算力的機會:自研晶片降低成本(相比 NVIDIA DRIVE 授權費用)、降低功耗(對電動車續航至關重要),並為 Waymo 特定的感測器組合和神經網路架構實現硬體-軟體協同設計 |
| 模擬基礎設施 | 所有主要 Physical AI 公司 | NVIDIA Isaac Gym 和 Isaac Lab(Agility、Figure、Boston Dynamics 等);Waymo 的 CarCraft 模擬器;Tesla 自研模擬堆疊;Aurora 的 TORCH 模擬器 | 模擬是 Physical AI 訓練資料的力量倍增器:GPU 加速模擬生成合成訓練場景的速度比實體資料採集快幾個數量級;Waymo 的 CarCraft 模擬器每年生成數十億個模擬場景,覆蓋實體資料採集難以高效觸及的長尾邊緣案例 |
第五節 — Physical AI 算力基準測試計分卡
| 算力維度 | Waymo(Alphabet) | Tesla | Aurora | Figure AI | 2028 年展望 |
|---|---|---|---|---|---|
| 訓練基礎設施 | Google TPU 集群(透過 Alphabet)+ NVIDIA GPU;來自 Alphabet 補貼基礎設施的結構性成本優勢;可訪問全球最大且最成熟的 AI 訓練平台之一 | Dojo(自研 D1 晶片)目標 exaFLOP 規模;建構 vs 租用的戰略押注;如果 Dojo 按設計運作,Tesla 視訊處理工作負載的每 FLOP 成本最低 | 租用 NVIDIA H100 / B200 叢集;無自研訓練基礎設施;訓練成本是重要的運營支出 | 透過 OpenAI 合作夥伴關係使用 NVIDIA GPU;OpenAI 作為 Figure-OpenAI 合作的一部分提供 GPU 訪問 | Tesla 的 Dojo 押注將更加清晰;如果 Dojo 以具競爭力的成本達到多 exaFLOP 規模,Tesla 擁有結構性訓練成本優勢;Waymo 的 Google TPU 訪問權無論 Dojo 結果如何都持久存在 |
| 車載推論 | NVIDIA DRIVE 或 Waymo 自研晶片(Gen 6 細節未完整披露(估計));每輛車算力成本是 Waymo 車輛經濟的重要組成部分 | Tesla FSD HW4 晶片:估計 350+ TOPS(估計);內部設計;硬體-軟體協同設計優勢;在規模上成本低於 NVIDIA DRIVE 授權 | Aurora Driver:基於 NVIDIA 的算力;系統為 Class 8 卡車整合設計;估計每輛卡車有 3+ 個冗餘算力單元(估計)用於功能安全合規 | 不適用(人形機器人,非車輛);Figure 02 使用自研算力;Agility Robotics Digit 使用 Jetson 等級車載算力 | Tesla 的自研晶片路線可能延續到 HW5;Waymo Gen 6 自研晶片部署縮小了與基於 NVIDIA 的 Gen 5 的車載算力差距 |
| 模擬基礎設施 | CarCraft:Waymo 自研模擬器;每年數十億個模擬場景;AV 業界最成熟的模擬堆疊之一 | 自研模擬堆疊;Tesla 以現實世界資料為主要訓練信號,模擬為補充;設計上比 Waymo 更少依賴模擬 | TORCH 模擬器;GPU 加速;Aurora 使用模擬處理實體測試里程未覆蓋的邊緣案例 | NVIDIA Isaac Lab + Figure 自研機器人模擬;用於操作和移動策略的物理精確人形任務模擬 | 模擬品質越來越關鍵,因為單靠實體資料採集無法高效覆蓋長尾邊緣案例;所有公司都在大力投資模擬保真度和域隨機化 |
| 資料量(訓練資料) | 估計 3000 萬英里以上商業無人駕駛里程(估計);最高品質的無人駕駛資料(無人類駕駛監督偽影);但在三大 AV 玩家中資料量最小 | 估計 60 億英里以上監督里程(估計);AV 中最大的訓練資料集;透過 600 萬輛以上車隊的資料飛輪;監督(人工操作)資料包含人類駕駛錯誤作為訓練信號 | 自 2025 年 4 月商業啟動以來估計 1000 萬英里以上高速公路商業里程(估計);高品質高速公路資料;初期限於德州 I-45 達拉斯-休士頓走廊 | 機器人任務資料:早期階段;NVIDIA Isaac 模擬填補實體資料缺口;Figure AI 在 BMW 工廠部署以生成現實世界機器人任務資料 | Tesla 的資料量優勢具結構性且持續增長;Waymo 的無人駕駛資料品質對於無人駕駛模型訓練更優;Aurora 的高速公路資料是業界最高品質的長途卡車運輸資料集 |
| 算力整體評估 | Physical AI 算力競賽尚未決出勝負。NVIDIA 仍是幾乎所有 Physical AI 公司訓練基礎設施的主要提供者——這一地位創造了巨大收入並強化了 NVIDIA 的生態系統護城河。Tesla 的 Dojo 押注是 Physical AI 中最雄心勃勃的算力基礎設施差異化,論點可信(針對視訊訓練優化的自研晶片 + 最大訓練資料集 = 結構性模型改善優勢),但在 Tesla 目標的完整規模上尚未得到驗證。Waymo 的 Google TPU 訪問權是 AV 訓練算力中最不顯眼但最持久的結構性優勢——Alphabet 的 TPU 基礎設施是全球最成熟、最具成本效益的之一,Waymo 以補貼費率獲得它是一個被低估的競爭護城河。對於追蹤 Physical AI 算力競賽的投資者,要關注的 KPI 不是原始 FLOP 數——而是每美元的訓練吞吐量以及由此帶來的模型改善速度,以脫離率下降和地理擴張速度衡量。 |
注意: 標記為「(估計)」的數字是基於 2026 年中期公開可用資訊的方向性估計。硬體定價、叢集規模經濟和訓練算力容量未由相關公司完整公開披露。本文不構成投資建議。
來源
- NVIDIA H100 與 B200 架構規格 — NVIDIA ↗
- Tesla Dojo AI 訓練基礎設施 — Tesla AI ↗
- Google TPU v5 雲端定價 — Google Cloud ↗
- AMD MI300X 架構 — AMD ↗