2026-06-18 — views
實體 AI 運算基礎設施 — Tesla Dojo、Google TPU、NVIDIA H100 在自駕訓練軍備競賽中的角力
Tesla 押注 Dojo 自研晶片目標達成每 FLOP 1 美元,Waymo 繼承 Google TPU 規模優勢,兩者在訓練迭代速度上皆遠超依賴 NVIDIA 的競爭對手。
實體 AI 基準測評系列第 130 篇 — 實體 AI 運算基礎設施:Tesla Dojo vs Google TPU vs NVIDIA H100/H200,FSD、Waymo 神經網路與 Optimus 策略學習背後的 AI 訓練軍備競賽
驅動 FSD、Waymo 感知系統與 Optimus 策略學習的 AI 模型,均在大規模運算叢集上完成訓練。運算基礎設施決定了各公司的迭代速度——訓練新模型、執行消融實驗、將改進部署至車隊的速度。Tesla 押注自研晶片(Dojo D1 晶片加 ExaPOD 叢集)。Waymo 繼承 Google 世界級的 TPU 基礎設施。其餘所有自駕車與機器人公司則租用 NVIDIA H100/H200 叢集。本文將運算基礎設施作為實體 AI 基準測評的核心維度加以呈現。
標記「(估計)」的數據來自公開市場資訊、公司揭露及分析師估算,而非經核實的原始數據。
第一節 — Tesla Dojo:自研晶片的豪賭
Tesla 的 Dojo 計畫是自駕車業界最雄心勃勃的自研晶片賭注。Tesla 不向雲端供應商租用 NVIDIA 算力,而是自行設計訓練晶片(Dojo D1),並將其組裝成專用於 FSD 訓練、自動標註及 Optimus 策略學習的 ExaPOD 叢集。
| 指標 | Dojo D1 晶片 | Dojo ExaPOD(訓練叢集) | 現狀(2026 年中) |
|---|---|---|---|
| 架構 | 台積電 7nm 自研設計;362 TFLOPS BF16;10 TB/s 晶片內頻寬(Tesla 已揭露) | 每個訓練模組 120 顆 Dojo D1;每個 ExaPOD 機櫃 3,000 顆晶片 | 自研設計——無 GPU 廠商依賴 |
| 目標算力 | 每 ExaPOD 叢集 1 ExaFLOP(Tesla 揭露之目標) | 多個 ExaPOD = 多個 ExaFLOP | 依 Tesla AI Day 揭露,約達 1 ExaFLOP(估計) |
| 訓練用途 | FSD 神經網路(影像到駕駛策略);Occupancy Network;Auto-Labeling 管線 | 完整 FSD 訓練流程:從 600 萬輛以上車隊的原始影像生成更新的 FSD 模型 | FSD v12/v13/v14 在 Dojo 上訓練(估計) |
| Optimus 應用 | Optimus 策略學習(操作、導航)共享 Dojo 基礎設施(估計) | 人形機器人策略比駕駛需要更多樣的數據——每次改進所需算力更高(估計) | Optimus 早期訓練在 Dojo 上進行(估計);規模持續擴大 |
| 相較 NVIDIA 的成本 | Musk 引用每訓練 FLOP 1 美元目標,vs 租用 NVIDIA H100 叢集約 3-4 美元(估計) | 若達成:每次訓練運行相較雲端 GPU 具約 3-4 倍成本優勢 | 優勢取決於 Dojo 使用率與良率 |
| 風險 | 自研晶片良率風險;台積電 7nm 現已成熟,但 Dojo 架構為專有技術;若晶片設計有缺陷,修復速度慢 | 單一供應商依賴自身晶片團隊 | 核心風險:NVIDIA H100 叢集現已可大規模取得;Dojo 建設有所延誤 |
| 策略價值 | 若 Dojo 實現成本目標:Tesla 訓練 FSD 比任何租用算力的競爭對手都更快、更便宜 | 訓練速度 = 模型迭代速度 = 脫離輔助率改善速度 | Dojo 賭注將資本支出轉化為持久的成本護城河 |
Dojo 論點建立在一個直觀的成本方程式上:若 Tesla 能以每 FLOP 1 美元完成模型訓練,而不是在租用的 H100 叢集上花費 3-4 美元,則每次 FSD 迭代的成本比競爭對手低三到四倍。在每年數百次訓練運行的情況下,這一成本優勢會複利累積成迭代速度優勢——每美元能執行更多實驗,意味著更快收斂至更優質的模型。
第二節 — Waymo 與 Google TPU:以母公司身份繼承的基礎設施優勢
Waymo 的算力優勢是結構性的而非靠努力爭取的:作為 Alphabet 子公司,Waymo 繼承了 Google TPU 基礎設施的存取權——驅動 Google 搜尋、YouTube 推薦及 Gemini 訓練的同款自研晶片。沒有任何自駕車新創公司能在不投入同等資本的情況下與之匹敵。
| 指標 | Google TPU v4/v5 | Waymo 的存取權 | 策略意涵 |
|---|---|---|---|
| 架構 | Google 自研 TPU(張量處理器);v4 = 275 TFLOPS;v5p = 約 460 TFLOPS(估計) | Waymo 是 Alphabet 子公司——可完全存取 Google TPU 叢集及 Google Cloud 基礎設施 | Waymo 無需在算力上自行投入資本;Alphabet 承擔基礎設施成本 |
| 叢集規模 | Google 運營全球最大規模的 TPU 叢集之一(確切容量未揭露) | Waymo 可按需存取 Google 規模的算力 | Waymo 的算力上限即為 Google 的整體基礎設施 |
| 模擬基礎設施 | Google 的 NeRF 場景重建(大規模模擬)在 TPU + GPU 叢集上執行 | Waymo 的模擬管線將真實里程倍增為合成訓練數據 | 1 英里真實數據 → 1,000 多個模擬變體 → TPU 對全部變體進行訓練 |
| 對 Waymo 的成本 | Alphabet 內部成本分攤(未揭露);Waymo 按內部轉讓價格付費 | 實質上是 Alphabet 的補貼 | 競爭護城河:沒有自駕車新創公司能在不投入同等資本的情況下複製 Google 的算力 |
| 風險 | 依賴 Alphabet:若 Waymo 被分拆或出售,TPU 存取權可能改變 | Alphabet 已展現持續投資 Waymo 的意願 | 在 Waymo 仍為子公司時風險低;若獨立 IPO 則風險中等 |
| 訓練重點 | Waymo 的 MultiPath++(軌跡預測)、OccupancyFlow(環境模型)、感知堆疊 | Waymo 所有主要神經網路均在 Google TPU 基礎設施上訓練 | 可能涉及 Google Brain / DeepMind 合作(估計) |
模擬倍增器是 Waymo 最被低估的算力放大器。一英里真實世界的駕駛數據可被轉換為數千個模擬變體——不同光線條件、不同行人行為、不同交通模式、感測器雜訊變化。每個模擬變體都是一個新的訓練樣本。當這些樣本由 Google 規模的 TPU 基礎設施生成並處理時,Waymo 的有效訓練數據量遠超其車隊的實際里程數。
第三節 — NVIDIA:所有其他自駕車公司依賴的既有供應商
對於任何既非 Tesla 也非 Waymo 的自駕車或機器人公司而言,NVIDIA 是唯一可行的大規模算力路徑。這造成了一種結構性依賴,將訓練迭代速度限制在公司所能負擔或談判取得的 H100/H200 容量範圍內。
| 指標 | NVIDIA H100 | NVIDIA H200 | NVIDIA DRIVE Orin(車載) |
|---|---|---|---|
| 架構 | Hopper;3.9 PetaFLOPS BF16(已揭露) | Hopper + HBM3e;約 3.9 PF BF16 + 更高記憶體頻寬 | 每晶片 254 TOPS;汽車安全等級 |
| 雲端可用性 | AWS、Azure、GCP、CoreWeave、Lambda Labs——任何自駕車公司均可取得 | H200 可透過與 H100 相同的雲端供應商取得 | 銷售給 Tier 1 供應商和自駕車公司 |
| 成本 | 雲端每小時約 2-4 美元(估計,因供應商與現貨定價而異) | 雲端每小時約 3-5 美元(估計) | 每晶片約 750 美元以上(估計);用於 Zoox、Aurora 等自駕車 |
| 使用 H100/H200 訓練的自駕車公司 | Aurora、Zoox、Mobileye、Wayve 及大多數非 Waymo/Tesla 自駕車公司均租用 H100/H200 時間 | — | — |
| NVIDIA DRIVE 平台 | — | — | 獨立產品:DRIVE Orin(254 TOPS)+ DRIVE Thor(2,000 TOPS,已宣布);車內自駕感知/規劃 AI |
| 策略角色 | 若無 Dojo 或 Google TPU,自駕車訓練的預設基礎設施 | H200 = 當前前沿;H100 = 可取得且廣泛使用 | NVIDIA 車載算力主導非 Tesla/非 Waymo 自駕車市場 |
| 自駕車公司的風險 | 集中風險:NVIDIA 定價能力;2023 年 H100 供應限制導致訓練延誤 | — | 除 Tesla(HW4)和 Waymo(自研 TPU)外,所有競爭對手的車載算力均依賴 NVIDIA |
NVIDIA 依賴形成了一種隨時間複利加劇的策略不對稱性。Aurora、Zoox、Mobileye 和 Wayve 均在租用的 H100 叢集上執行訓練工作負載。當 NVIDIA 推出 H200 或下一代 Blackwell 晶片時,這些公司都會同等受益——沒有人能從硬體存取中獲得優勢。訓練算力的底線對所有人同步提升,但上限保持不變:即雲端市場按市價願意出售給你的容量。
第四節 — 算力作為擴張倍增器:訓練迭代速度
算力基礎設施差異的實際後果是訓練迭代速度——每月每家公司能執行多少個模型改進週期。迭代次數越多,意味著脫離輔助率改善越快、長尾邊緣案例覆蓋越快、對新駕駛環境的適應越快。
| 公司 | 訓練叢集 | 估計每月訓練次數 | 模型迭代速度 | 擴張意涵 |
|---|---|---|---|---|
| Tesla | Dojo ExaPOD(1+ ExaFLOP 估計) | 高——專用叢集服務 FSD + Optimus | 若 Dojo 達到規格:迭代速度最快(估計) | 脫離輔助率改善速度與訓練迭代速度成正比 |
| Waymo | Google TPU(Alphabet 規模) | 非常高——Google 基礎設施;不與商業客戶競爭資源 | 非常快;Google 的算力規模無可匹敵 | Waymo 的模擬到訓練管線倍增有效算力 |
| Aurora | 租用 NVIDIA H100/H200 | 中等——受預算限制;優先安全驗證 | 中等——依賴資本 | 募資限制制約訓練迭代 |
| Zoox | Amazon 雲端(EC2 + 租用 H100)——Amazon 擁有 Zoox | 高——Amazon 基礎設施 | 快——Amazon 雲端存取類似 Waymo 的 Google 優勢 | 被低估的優勢:Zoox 的 Amazon 所有權 = 按需雲端算力 |
| Mobileye | Intel 算力 + 租用 H100 | 中等 | 中等 | EyeQ 晶片團隊具備矽基專業知識;訓練算力聚焦度較低 |
| Figure AI | 租用 H100;NVIDIA 合作夥伴關係 | 中等 | 中等 | OpenAI 語言模型整合 = 語言組件的獨特算力存取 |
Zoox 在此表中值得特別關注,因其是繼 Tesla 和 Waymo 之後,最被低估的算力優勢自駕車公司。Amazon 對 Zoox 的所有權賦予其按內部轉讓價格存取 AWS 基礎設施的能力——一種本質上與 Waymo 的 TPU 存取平行的結構性優勢。這一優勢尚未轉化為可見的商業牽引力,但這意味著 Zoox 的訓練迭代上限並不受限於與 Aurora 相同的預算約束。
第五節 — 算力基礎設施基準測評計分卡
| 維度 | Tesla(Dojo) | Waymo(Google TPU) | 依賴 NVIDIA 的公司 | 優勢方 |
|---|---|---|---|---|
| 可用原始算力 | 約 1+ ExaFLOP 估計(持續增長) | Google 規模(未揭露;實際上無上限) | 受預算和 H100 可用性限制 | Waymo(Alphabet 支撐) |
| 每 FLOP 成本(估計) | 目標每 FLOP 1 美元(若 Dojo 達成) | 近乎零(內部轉讓) | 雲端每 FLOP 2-4 美元(估計) | Waymo 或 Tesla(取決於 Dojo 良率) |
| 自研晶片優勢 | 是——Dojo D1;D2 開發中 | 是——Google TPU v4/v5 | 否——依賴 NVIDIA | Tesla + Waymo 均具備自研晶片護城河 |
| 迭代速度 | 高(專用叢集) | 非常高(Google 規模 + 模擬倍增器) | 中等(受預算限制) | Waymo 略勝(模擬倍增器複利效應) |
| 車載算力 | HW4 = 288 TOPS(4 顆台積電 7nm 自研晶片);無 NVIDIA 依賴 | Waymo 車載自研 TPU | NVIDIA DRIVE Orin(約 750 美元以上估計) | Tesla(垂直整合;無第三方成本或交期) |
| Dojo vs TPU 評判 | Dojo 是一項數十億美元的賭注,押注自研晶片能打造持久成本護城河 | Google TPU 已被大規模驗證;Waymo 繼承其成果 | — | 兩者在規模上均優於租用 H100;Waymo 今日的存取規模更大 |
算力基礎設施計分卡揭示了一個兩層架構的實體 AI 產業。第一層由 Tesla 和 Waymo 組成——兩者均擁有用於訓練和推論的自研晶片,均擁有可獨立於雲端市場定價擴展的專用叢集,且車載算力均不依賴 NVIDIA。第二層由所有其他自駕車和機器人公司組成——在訓練和車載推論上均結構性依賴 NVIDIA,訓練迭代速度受雲端預算限制而非基礎設施上限。
長期影響是一個隨時間複利加劇的訓練迭代差距。若 Tesla 每月能執行 Dojo 讓其成本為 Aurora 三分之一的 FSD 訓練實驗,而 Waymo 因 Google 基礎設施無容量上限而能執行五倍的實驗,則第一層與第二層之間的神經網路品質差距將逐月擴大——與研究團隊的素質無關。算力基礎設施不是實體 AI 領導地位的充分條件,但它日益成為必要條件。
注意: 所有標記「(估計)」的數據均來自 2026 年中的公開市場資訊、公司揭露、分析師估算及產業報告。本文不構成投資建議。
來源
- Tesla Dojo 超級電腦 — Tesla AI Day ↗
- Google TPU 基礎設施 — Google Cloud ↗
- NVIDIA H100 規格 — NVIDIA ↗
- NVIDIA DRIVE Orin 車用平台 — NVIDIA ↗
- Waymo 研究與模擬基礎設施 — Waymo ↗