2026-06-18 — views

2026 Physical AI 算力競賽 — NVIDIA B200 vs Tesla Dojo vs Google TPU：自動駕駛與機器人訓練基礎設施基準測試

NVIDIA B200 估計 9 exaFLOPS 驅動幾乎所有自動駕駛 AI 訓練。Tesla Dojo 押注自研晶片，Waymo 透過 Alphabet 使用 Google TPU。算力決定勝負。

Physical AI 基準測試系列第 205 篇 — 2026 Physical AI 算力競賽：NVIDIA H100/B200 vs Tesla Dojo vs Google TPU — 自動駕駛與機器人 AI 訓練基礎設施基準測試

Physical AI 競賽，從本質上看，是一場算力競賽。能在單位時間內執行更多訓練實驗的公司，就能更快地進行迭代、更快地發現更好的駕駛與機器人策略，並最終更快地部署更優質的產品。這是大型語言模型的教訓直接應用於物理系統：規模定律有效，而擁有更多訓練算力的實體，在中長期時間軸上將勝出。2026 年，三大訓練算力生態系正在競逐 Physical AI 堆疊的主導地位——NVIDIA 的 GPU 叢集（H100、H200、Blackwell B200）、Tesla 的自研 Dojo 超級電腦，以及 Google 的 TPU 基礎設施（透過 Alphabet 所有權由 Waymo 使用）。理解每個系統的架構、成本結構與戰略意涵，是判斷誰能在這個十年後半段贏得 AV 與機器人競賽的關鍵。

第一節 — 為什麼算力是 Physical AI 的決戰場

Physical AI 的進步速度與大型語言模型一樣受到算力限制。AV 公司能投入到神經網路訓練的 GPU 小時越多，脫離率下降越快、模型泛化的地理覆蓋範圍越廣、模型能正確處理的邊緣案例尾部越長。規模定律在 Physical AI 中不是希望，而是已觀察到的實證規律，每一位認真的競爭者都在圍繞它建構自己的路線圖。

原則	說明	Physical AI 意涵
規模定律適用	神經網路性能隨著算力、資料與更大模型的增加而可預測地提升（Chinchilla 規模定律；OpenAI 規模論文）	更多訓練算力 + 更多資料 = 更好的駕駛或機器人策略——與 LLM 隨規模改善的機制相同
兩種截然不同的算力環境	訓練算力（叢集規模 GPU/TPU，數千顆晶片）vs 推論算力（車載晶片，執行已部署的模型）	不同的最佳化目標：訓練 = 最大化吞吐量並最小化每次實驗的成本；推論 = 最小化每次決策的延遲與功耗
訓練資料量	Tesla 車隊每週估計產生數千萬英里的訓練資料（估計）；處理這些資料需要龐大的訓練算力	若訓練算力不足，資料飛輪就會減速——收集的資料無法及時處理；資料量優勢將被白白浪費
迭代速度的複利效應	更快的訓練 = 每單位時間更多的實驗 = 更快的架構發現；2-3 年內，這種複利將帶來可觀的模型品質差距	每美元能執行 3 倍訓練實驗的公司，發現更好策略的速度快 3 倍；複利在 24-36 個月內產生巨大差距
推論延遲攸關安全	時速 60 英里下，100ms 的感知延遲 = 2.7 公尺的盲行距離	車載推論必須足夠快速，以便在車輛行駛危險距離之前對道路危險做出反應

訓練算力是從資料中建構 AV 與機器人 AI 模型的「實驗室」。它在資料中心的大型 GPU 或 TPU 叢集上運行——數千至數萬顆晶片。這場競賽的核心在於：每 FLOP 的成本、叢集吞吐量、互連頻寬，以及大型模型所需的記憶體容量。Physical AI 模型通常規模龐大：基於 Transformer 的感知模型、機器人操作的擴散策略、端對端的視訊到動作神經網路。在這些模型上、針對數十億個訓練幀執行梯度下降，需要以 exaFLOPS 為衡量單位的算力規模。

推論算力是「車輛」端——部署的模型在物理系統上即時運行。對 AV 而言，這是嵌入汽車的晶片，必須在毫秒內處理八路攝影機的影像、執行完整神經網路，並輸出轉向、加速與制動指令。Tesla FSD HW4 晶片（估計 350+ TOPS（估計））和 Waymo 的車載算力（依世代不同採用 NVIDIA DRIVE 或自研方案）構成這場競賽的推論端。

AMD 因素真實存在但在 2026 年仍居次要地位。AMD MI300X 提供 192 GB HBM3 記憶體（多於 H100 的 80 GB）和估計 2.6 exaFLOPS FP8（估計）——具競爭力的原始規格。但 CUDA 生態系統的鎖定效應使切換成本高昂。幾乎所有 AV 訓練程式碼都是為 CUDA 編寫的；AMD 的 ROCm 軟體堆疊成熟度較低。部分 AV 公司可能基於成本考量使用 AMD 叢集，但 NVIDIA 生態系統主導地位是 2026 年業界的預設選擇。

第二節 — NVIDIA 在 AV 與機器人訓練叢集的主導地位

NVIDIA 為幾乎所有沒有自研訓練晶片的 AV 與機器人公司提供訓練算力基礎設施。H100、H200 和 Blackwell B200 構成標準堆疊。NVIDIA 的 Isaac 模擬套件（Isaac Lab、Isaac Gym）為機器人訓練資料生成提供 GPU 加速物理模擬。DRIVE 平台則為沒有自研晶片的 AV 公司提供車載推論。

NVIDIA 晶片	規格	Physical AI 應用場景	價格 / 供應（估計）
H100 SXM5	80 GB HBM3；估計 3.35 exaFLOPS FP8（估計）；NVLink 4.0；700W TDP；DGX H100 = 8 顆 H100	2024-2025 年幾乎所有 AV 公司的主要訓練晶片；Waymo、Aurora、Figure AI、Agility、Boston Dynamics Atlas；用於訓練感知模型、運動預測、軌跡優化	估計每顆 $25K-$30K（估計）；DGX H100 系統估計 $200K-$250K（估計）；雲端 H100：估計 $2-$3/小時/GPU（估計）
H200 SXM5	141 GB HBM3e（比 H100 多 75% 記憶體）；計算受限工作負載下訓練吞吐量與 H100 相同；記憶體受限任務下頻寬優勢明顯	大型模型 Physical AI 訓練（Figure AI 的 VLM、Tesla 的端對端模型等視覺語言模型）；更高記憶體容量支援更大的批次大小而不溢出	估計每顆 $30K-$40K（估計）；2024-2025 部署週期中 H100 的繼任者
B100 / B200（Blackwell）	B200：估計 192 GB HBM3e（估計）；估計 9 exaFLOPS FP8（估計）——接近 H100 的 3 倍；NVLink 5.0；顯著更高的記憶體頻寬	下一代 AV 訓練；Figure AI、Tesla、Aurora 可能在 2025-2026 年將訓練叢集過渡到 Blackwell；每顆晶片 3 倍吞吐量可按比例縮短訓練時間或在相同時間訓練更大模型	估計每顆 $35K-$45K（估計）；2025-2026 年產能爬坡；Blackwell 早期供不應求
Jetson AGX Orin（推論）	275 TOPS 車載推論平台；64 GB LPDDR5；專為邊緣 AI 推論設計	Agility Robotics Digit 使用 Jetson 等級算力；Boston Dynamics Atlas 開發；Waymo 和 Tesla 車輛未採用（兩者均使用自研晶片）	估計開發者套件 $1,099（估計）；量產模組定價更低
NVIDIA DRIVE 平台	DRIVE Orin：254 TOPS/顆；DRIVE Thor（繼任）：估計 2,000 TOPS（估計）	Waymo Gen 5 據報使用 NVIDIA 硬體；多家 AV 新創使用 DRIVE 平台；沒有自研晶片的公司的標準 AV 推論算力	DRIVE Orin 量產定價估計 $500-$2,000/車（估計）；DRIVE Thor 定價估計更高
NVIDIA Isaac（機器人）	Isaac ROS：機器人中間件；Isaac Lab：強化學習模擬框架；Isaac Gym：GPU 加速物理模擬	Figure AI、Agility Robotics 等使用 NVIDIA Isaac 模擬堆疊生成合成訓練資料；GPU 加速模擬能產生比實體採集更多樣的訓練場景	軟體：開源；硬體：Isaac 模擬工作負載所需的標準 GPU 叢集

在叢集規模下，經濟影響相當顯著。一個 10,000 顆 H100 的叢集——認真進行 AV 訓練所需的規模——僅硬體成本就估計 $2.5 億-$3 億美元（估計），還不含資料中心基礎設施、電力和冷卻費用。轉向 Blackwell B200（估計每顆 9 exaFLOPS vs H100 的估計 3.35 exaFLOPS）意味著以相同資本支出獲得 3 倍的訓練吞吐量，或以大約三分之一的硬體數量實現相同吞吐量。這就是為什麼 B200 的供應情況和定價是 2025-2026 年 Physical AI 競賽中最具戰略意義的變數之一。

第三節 — Tesla Dojo：自研訓練基礎設施

Tesla 的 Dojo 超級電腦是 Physical AI 領域最雄心勃勃的算力基礎設施差異化佈局。Tesla 沒有租用 NVIDIA GPU 或使用雲端 TPU，而是打造了自研訓練晶片（D1）、自研訓練磁磚（25 顆 D1 晶片）和自研訓練機櫃（ExaPOD，120 個磁磚）。戰略邏輯在於：Tesla 的特定訓練工作負載——處理來自 600 萬輛以上車隊的數億個行車記錄儀視訊片段——足夠專業化，以至於針對此工作負載優化的專用晶片，在這項特定任務上的每 FLOP 成本將優於通用 GPU 訓練。

Dojo 維度	現狀	戰略意涵	風險 / 不確定性
D1 晶片架構	TSMC 7nm 製程；估計每顆 362 TFLOPS FP32（估計）；每個訓練磁磚 25 顆 D1；磁磚內高頻寬晶片對晶片互連；專為視訊輸入神經網路訓練設計（FSD 主要訓練工作負載）	D1 架構針對 Tesla 特定工作負載最佳化：處理數百萬小時的行車記錄儀視訊用於 FSD 神經網路訓練；磁磚內晶片對晶片互連頻寬（估計約 10 TB/s）針對視訊訓練的梯度同步模式進行調優	D1 的性能優勢具工作負載特異性；對於通用 LLM 訓練，H100 或 B200 更優；對於 Tesla 的視訊密集工作負載，D1 的互連頻寬可能是優化所在
ExaPOD 與叢集規模	一個訓練磁磚 = 25 顆 D1；一個 ExaPOD 機櫃 = 120 個訓練磁磚 = 3,000 顆 D1；多個 ExaPOD 機櫃構成 Dojo 超級電腦叢集；Tesla 目標每個 ExaPOD 訓練容量估計超過 1 exaFLOP（估計）	在 exaFLOP 規模下，Dojo 每天能處理比 Tesla 先前基於 NVIDIA 的叢集顯著更多的 FSD 訓練資料；更高的訓練吞吐量帶來更多模型迭代和更快的脫離率改善	Dojo 實際部署容量和每個 ExaPOD 的利用率未經公開確認；Tesla 提出了 exaFLOP 目標，但精確的規模化運營狀態為（估計）
每 FLOP 成本 vs NVIDIA	Tesla 的論點：Dojo 的每 FLOP 成本低於為視訊處理工作負載租用 NVIDIA H100；如果 D1 對視訊的每 FLOP 成本比 H100 低估計 30-50%（估計），在一次 10-exaFLOP 訓練中，Dojo 可為 Tesla 節省估計 $1 億-$10 億（估計）	Dojo 的成本優勢（如果屬實）在 Tesla 的整個生命週期中複利累積：每次實驗的訓練成本更低 → 每筆預算更多的迭代 → 更快的模型改善 → 更好的 FSD → 更高的附加率 → 更多收入 → 更多訓練資料	成本優勢是 Tesla 的論點，尚未經過獨立驗證；NVIDIA 也透過 H100 和 B200 的競爭降低了有效雲端定價；實際 Dojo 成本優勢可能小於所聲稱的
訓練資料飛輪	Tesla 600 萬輛以上具備 FSD 的車輛每週產生估計數千萬英里的訓練資料（估計）；沒有消費者汽車車隊的競爭者無法複製這一資料量；Dojo 是這個獨特大型資料集的處理基礎設施	Waymo 的訓練資料在數量上小一到兩個數量級（估計 3000 萬英里以上的商業無人駕駛里程 vs 估計 60 億英里以上的 Tesla 監督里程（估計））；即使訓練基礎設施效率相當，Tesla 的資料量意味著其模型見過更多場景	Tesla 的資料是監督資料（人工操作），不是無人駕駛資料；模型從人類駕駛行為中學習，其中包含人類駕駛錯誤作為訓練信號；監督資料與無人駕駛訓練資料的品質差異是一個合理的開放問題
Dojo vs 租用 NVIDIA（戰略選擇）	Tesla 選擇建構自研訓練基礎設施而非租用雲端 NVIDIA GPU；高資本、高風險、高潛在回報的策略；如果 Dojo 按設計運作，Tesla 在 5-10 年內節省數十億美元的訓練成本	建構 vs 租用的決策被業界密切關注：如果 Dojo 成功，其他 AV 公司可能跟進；如果 Dojo 表現不及 NVIDIA，則驗證了所有競爭者的租用 NVIDIA 路線	Tesla 已表示將繼續投資 Dojo；無論近期相對 NVIDIA 的表現如何，該策略都不會被放棄

第四節 — Waymo、Google TPU 與競爭對手訓練基礎設施

Waymo 的算力優勢是 AV 領域討論最少但可能最持久的優勢。作為 Alphabet 的子公司，Waymo 可以獲得 Google 的 TPU 基礎設施——全球最成熟、最具成本效益的 AI 訓練平台之一——且其條款未公開披露，但幾乎可以確定比公共雲端市場費率更為優惠。這是任何 AV 新創公司在不收購 Google 的情況下無法複製的結構性優勢。

算力方案	使用者	訓練能力	Physical AI 相關性
Google TPU v5e / v5p（Waymo）	Waymo（透過 Alphabet）；Google 內部 AI 專案；競爭對手通常無法使用	TPU v5p：估計每顆 459 TFLOPS BF16（估計）；在大型 Google TPU 集群中部署（數千顆晶片）；全球最成熟、最具成本效益的 AI 訓練平台之一	Waymo 透過 Alphabet 獲得的 TPU 訪問權是相對必須租用公共雲端 GPU 的競爭對手的結構性優勢；成本實際上由 Alphabet 的基礎設施投資補貼；Waymo 以非公開市場費率獲得 TPU 容量
NVIDIA H100 / B200 叢集（Aurora、Figure AI、Agility 等）	Aurora（AV 卡車）；Figure AI（人形機器人，透過 OpenAI GPU 訪問）；Agility Robotics；Boston Dynamics；大多數沒有自研算力的 AV 新創	H100：估計 3.35 exaFLOPS FP8（估計）；B200：估計 9 exaFLOPS FP8（估計）；業界標準訓練平台；所有為 CUDA 編寫的 Physical AI 訓練程式碼原生運行	使用租用 NVIDIA H100 / B200 的競爭者支付市場費率（估計每 H100 $2-3/小時（估計））；在大規模訓練中，這是相當可觀的運營支出；Aurora 的 AV 訓練成本是重要的預算項目；Figure AI 的 VLM 訓練透過合作夥伴關係使用 OpenAI 的基於 NVIDIA 的基礎設施
AMD MI300X（新興）	部分資料中心運營商；潛在的成本意識型 AV 公司	MI300X：192 GB HBM3（H100 80 GB 的 2.4 倍）；估計 2.6 exaFLOPS FP8（估計）；在標價上與 H100 有價格競爭力	AMD MI300X 技術上具競爭力，但 CUDA 生態系統鎖定限制了在 Physical AI 中的採用；所有主要 AV 訓練程式碼庫均針對 CUDA 優化；遷移到 ROCm 需要大量工程投入；AMD 正在獲得市場份額，但在 2026 年的 AV AI 訓練中仍是次要選擇
Tesla FSD 晶片（車載推論）	Tesla 車輛（HW3、HW4）；Tesla 矽晶片團隊內部設計	HW3：144 TOPS（每輛車兩顆晶片）；HW4：估計 350+ TOPS（估計）；針對 Tesla FSD 神經網路推論優化的自訂架構	專為 Tesla FSD 模型設計的車載推論晶片：以低延遲即時處理 8 路攝影機影像通過神經網路；自研晶片相比使用 NVIDIA DRIVE 平台實現更緊密的硬體-軟體協同設計；Tesla 可針對其特定神經網路架構優化晶片設計
Waymo 自研車載晶片（Gen 6）	Waymo Gen 5 和 Gen 6 車輛	Waymo 未完整公開披露車載算力細節；Gen 5 捷豹 I-PACE 據報使用 NVIDIA 硬體；Gen 6 專用車型可能使用 Waymo 自研晶片以提升能效和降低成本	Waymo 的 Gen 6 車型是優化車載算力的機會：自研晶片降低成本（相比 NVIDIA DRIVE 授權費用）、降低功耗（對電動車續航至關重要），並為 Waymo 特定的感測器組合和神經網路架構實現硬體-軟體協同設計
模擬基礎設施	所有主要 Physical AI 公司	NVIDIA Isaac Gym 和 Isaac Lab（Agility、Figure、Boston Dynamics 等）；Waymo 的 CarCraft 模擬器；Tesla 自研模擬堆疊；Aurora 的 TORCH 模擬器	模擬是 Physical AI 訓練資料的力量倍增器：GPU 加速模擬生成合成訓練場景的速度比實體資料採集快幾個數量級；Waymo 的 CarCraft 模擬器每年生成數十億個模擬場景，覆蓋實體資料採集難以高效觸及的長尾邊緣案例

第五節 — Physical AI 算力基準測試計分卡

算力維度	Waymo（Alphabet）	Tesla	Aurora	Figure AI	2028 年展望
訓練基礎設施	Google TPU 集群（透過 Alphabet）+ NVIDIA GPU；來自 Alphabet 補貼基礎設施的結構性成本優勢；可訪問全球最大且最成熟的 AI 訓練平台之一	Dojo（自研 D1 晶片）目標 exaFLOP 規模；建構 vs 租用的戰略押注；如果 Dojo 按設計運作，Tesla 視訊處理工作負載的每 FLOP 成本最低	租用 NVIDIA H100 / B200 叢集；無自研訓練基礎設施；訓練成本是重要的運營支出	透過 OpenAI 合作夥伴關係使用 NVIDIA GPU；OpenAI 作為 Figure-OpenAI 合作的一部分提供 GPU 訪問	Tesla 的 Dojo 押注將更加清晰；如果 Dojo 以具競爭力的成本達到多 exaFLOP 規模，Tesla 擁有結構性訓練成本優勢；Waymo 的 Google TPU 訪問權無論 Dojo 結果如何都持久存在
車載推論	NVIDIA DRIVE 或 Waymo 自研晶片（Gen 6 細節未完整披露（估計））；每輛車算力成本是 Waymo 車輛經濟的重要組成部分	Tesla FSD HW4 晶片：估計 350+ TOPS（估計）；內部設計；硬體-軟體協同設計優勢；在規模上成本低於 NVIDIA DRIVE 授權	Aurora Driver：基於 NVIDIA 的算力；系統為 Class 8 卡車整合設計；估計每輛卡車有 3+ 個冗餘算力單元（估計）用於功能安全合規	不適用（人形機器人，非車輛）；Figure 02 使用自研算力；Agility Robotics Digit 使用 Jetson 等級車載算力	Tesla 的自研晶片路線可能延續到 HW5；Waymo Gen 6 自研晶片部署縮小了與基於 NVIDIA 的 Gen 5 的車載算力差距
模擬基礎設施	CarCraft：Waymo 自研模擬器；每年數十億個模擬場景；AV 業界最成熟的模擬堆疊之一	自研模擬堆疊；Tesla 以現實世界資料為主要訓練信號，模擬為補充；設計上比 Waymo 更少依賴模擬	TORCH 模擬器；GPU 加速；Aurora 使用模擬處理實體測試里程未覆蓋的邊緣案例	NVIDIA Isaac Lab + Figure 自研機器人模擬；用於操作和移動策略的物理精確人形任務模擬	模擬品質越來越關鍵，因為單靠實體資料採集無法高效覆蓋長尾邊緣案例；所有公司都在大力投資模擬保真度和域隨機化
資料量（訓練資料）	估計 3000 萬英里以上商業無人駕駛里程（估計）；最高品質的無人駕駛資料（無人類駕駛監督偽影）；但在三大 AV 玩家中資料量最小	估計 60 億英里以上監督里程（估計）；AV 中最大的訓練資料集；透過 600 萬輛以上車隊的資料飛輪；監督（人工操作）資料包含人類駕駛錯誤作為訓練信號	自 2025 年 4 月商業啟動以來估計 1000 萬英里以上高速公路商業里程（估計）；高品質高速公路資料；初期限於德州 I-45 達拉斯-休士頓走廊	機器人任務資料：早期階段；NVIDIA Isaac 模擬填補實體資料缺口；Figure AI 在 BMW 工廠部署以生成現實世界機器人任務資料	Tesla 的資料量優勢具結構性且持續增長；Waymo 的無人駕駛資料品質對於無人駕駛模型訓練更優；Aurora 的高速公路資料是業界最高品質的長途卡車運輸資料集
算力整體評估	Physical AI 算力競賽尚未決出勝負。NVIDIA 仍是幾乎所有 Physical AI 公司訓練基礎設施的主要提供者——這一地位創造了巨大收入並強化了 NVIDIA 的生態系統護城河。Tesla 的 Dojo 押注是 Physical AI 中最雄心勃勃的算力基礎設施差異化，論點可信（針對視訊訓練優化的自研晶片 + 最大訓練資料集 = 結構性模型改善優勢），但在 Tesla 目標的完整規模上尚未得到驗證。Waymo 的 Google TPU 訪問權是 AV 訓練算力中最不顯眼但最持久的結構性優勢——Alphabet 的 TPU 基礎設施是全球最成熟、最具成本效益的之一，Waymo 以補貼費率獲得它是一個被低估的競爭護城河。對於追蹤 Physical AI 算力競賽的投資者，要關注的 KPI 不是原始 FLOP 數——而是每美元的訓練吞吐量以及由此帶來的模型改善速度，以脫離率下降和地理擴張速度衡量。

注意： 標記為「（估計）」的數字是基於 2026 年中期公開可用資訊的方向性估計。硬體定價、叢集規模經濟和訓練算力容量未由相關公司完整公開披露。本文不構成投資建議。