2026-06-18 — views

實體AI算力對決 — Waymo Google Cloud TPU vs Tesla Dojo D1：訓練基礎設施基準測試 2026

Waymo 使用 Google TPU Pod 並享受補貼算力，每日模擬 150 億英里。Tesla 建造 Dojo D1 專用晶片訓練影片，同步運行 NVIDIA H100 叢集。

概述

AI 訓練算力基礎設施是各公司提升自駕模型能力的核心引擎。Waymo 身為 Alphabet 子公司，使用 Google Cloud TPU——與訓練 Gemini 等 Google AI 系統相同的算力生態系統。Tesla 則自建 Dojo 超級電腦，採用專為大規模影片資料訓練而設計的自研 D1 晶片。本文對兩種算力策略進行基準測試——各公司的資源配置、成本結構，以及對 AI 模型迭代速度的影響。本文為實體 AI 基準系列第 165 篇。

第一節 — Waymo 算力架構：Google Cloud + TPU 生態系統

Waymo 的訓練基礎設施與其 Alphabet 子公司地位密不可分。能夠使用 Google 的 TPU Pod——全球最先進的 AI 訓練基礎設施——是任何獨立 AV 新創公司都無法複製的結構性優勢。

算力維度	Waymo 詳情	戰略意義
主要訓練基礎設施	Waymo 使用 Google Cloud TPU 進行神經網路訓練；身為 Alphabet 子公司，Waymo 可存取 Google 內部 TPU Pod——與訓練 Gemini 等 Google AI 系統相同的基礎設施	Alphabet 子公司身份使 Waymo 能以邊際成本使用全球最先進的 AI 訓練基礎設施；任何 AV 新創公司都無法獨立承擔同等算力費用
Google TPU v4/v5 世代	Google TPU v4 Pod 每個提供約 1 exaFLOP 算力；TPU v5（2023 年發布）能效提升估計達 2 倍以上（估算）；Waymo 可按需使用這些資源	TPU v5 效能代表 Transformer 與卷積架構訓練的業界最佳——正是 AV 感知與規劃所採用的架構類型
Google DeepMind 協同效應	Waymo 有機會獲取 DeepMind 的研究人才與方法論（兩者均為 Alphabet 子公司）；DeepMind 在 AlphaFold、Gemini 和機器人領域的研究與 AV 挑戰高度相關	跨子公司的知識轉移並非自動實現，但組織鄰近性具有重要意義；DeepMind 的機器人研究直接關聯 Waymo 的預測與規劃問題
模擬算力（CarCraft）	Waymo 的 CarCraft 模擬系統每日在 Google Cloud 上運行估計 150 億模擬英里（估算）；在此規模下模擬罕見、危險和新穎場景需要大量並行算力	每日 150 億模擬英里意味著 Waymo 可針對極端邊緣案例（百萬分之一場景）進行訓練，這在真實世界里程中永遠無法獲得足夠數量；Google Cloud 的彈性擴展使此成為可能
成本結構	Waymo 不需按市場價格支付 Google Cloud 算力費用；身為 Alphabet 子公司，算力成本實際上受到補貼；Waymo 的訓練預算未單獨披露	這項補貼是巨大的結構性優勢：獨立 AV 新創公司若每年支付逾 10 億美元購買同等 Google Cloud 算力，將面臨 Waymo 所沒有的資本限制
高精地圖算力	Waymo 的高精地圖以 Google Maps 基礎資料為底，疊加 Waymo 專屬的釐米級雷射掃描豐化；將原始點雲處理成可導航的高精地圖需要大量算力	Google Maps 現有的地圖渲染與處理算力基礎設施被用於 Waymo 的高精地圖生成——這是 Alphabet 關係帶來的另一項隱性補貼
算力策略總評	Waymo 的算力策略是深度優先：使用全球最佳 AI 訓練基礎設施（Google TPU）解決一個定義清晰的窄域問題（自駕感知與規劃），並以 Google 的模擬規模覆蓋邊緣案例。這一策略在 Waymo 當前的運營範圍內效果顯著。主要風險：若 AI 架構向有利於不同算力範式的方向演進，Waymo 將依賴 Google 的路線圖而非自主掌控。

第二節 — Tesla 算力架構：Dojo D1 + NVIDIA 叢集

Tesla 的算力策略與 Waymo 截然相反：不借助現有超大規模雲端商的基礎設施，而是自建專為其主要訓練工作負載——影片——優化的晶片與超級電腦。

算力維度	Tesla 詳情	戰略意義
Dojo 超級電腦架構	Tesla 專為影片訓練設計 D1 晶片（7nm、362 TFLOPS BF16、每晶片 900 GB/s 記憶體頻寬）；D1 晶片組成訓練節點（25 晶片/節點 = 9 PFLOPS），節點組成 ExaPOD 機櫃（120 節點 = 1.1 EFLOPS/ExaPOD），ExaPOD 構成完整 Dojo 叢集	Dojo 架構針對 Tesla 特定訓練工作負載優化：來自數百萬輛車輛的大批量影片幀。晶片拓撲（圖塊間高頻寬互連）將影片訓練的資料搬移開銷降至最低
Tesla 為何自建晶片	Tesla 主要訓練工作負載是影片：來自 600 萬輛車輛的數十億個 8 攝像頭影片片段；現有 GPU 和 TPU 架構並非為此特定工作負載模式最優設計；自研晶片使 Tesla 能針對記憶體頻寬、互連拓撲和影片精度格式進行優化	自研晶片開發耗資數億美元並需 3–5 年；Tesla 的理由是 5–10 年期間的訓練成本節省超過開發成本——與 Apple 應用於 M 系列晶片的邏輯相同
Dojo vs. NVIDIA GPU 叢集	Tesla 同時使用 NVIDIA H100 叢集進行訓練（Dojo 補充，並非完全替代 NVIDIA）；NVIDIA H100 每 GPU 提供約 2,000 TFLOPS BF16；10,000 GPU H100 叢集 = 20 EFLOPS；Tesla 合計 Dojo 與 NVIDIA 算力估計是非超大規模廠商中最大的單一公司 AI 算力部署之一（估算）	Tesla 的雙軌策略（Dojo 用於影片優化訓練 + NVIDIA 用於通用 AI）體現務實主義：H100 現已可用；Dojo 逐步擴展。同步運行兩者使 Tesla 能持續改進 FSD，無需等待 Dojo 成熟
訓練資料流	Tesla 的主要算力優勢是資料而非晶片：600 萬輛車 × 平均每日 FSD 啟用 1 小時 × 8 個攝像頭 = 海量每日影片資料；標注透過資料引擎自動化（影子模式：FSD 做出決策，人類糾正，糾正結果成為標注訓練資料）	資料引擎本身的算力需求也相當龐大：在數百萬輛車上執行影子模式推論並處理糾正結果，需要大量推論和儲存基礎設施，而不僅僅是訓練算力
Dojo 部署時程	第一個 Dojo ExaPOD 於 2022 年在德州 Gigafactory 投入運行；馬斯克目標 2024 年底達到 100 EFLOPS（估算）；實際部署進度未完整披露；Tesla 後續對 NVIDIA H100 叢集的持續投入表明 Dojo 擴展速度慢於計劃（估算）	Dojo 擴展慢於計劃與自研晶片的典型時程延誤一致；這並非失敗——而是第一代自研晶片的正常軌跡。NVIDIA H100 在 Dojo v2（下一代）就位前填補缺口
Dojo v2 與未來算力	Tesla 提及下一代 Dojo 晶片；截至 2026 年中期詳情未披露（估算）；若 Dojo v2 遵循典型的每代 2 倍效能提升，Tesla 的訓練算力可能在 2027 年達到數百 EFLOPS（估算）	軌跡比當前容量更重要：若 Dojo v2 兌現承諾，Tesla 的訓練算力達到超大規模廠商水準，Tesla 將是唯一擁有自研 AI 訓練晶片且達到該規模的非超大規模廠商
算力策略總評	Tesla 的算力策略是自建 vs. 外購的最大雄心版本：建造針對特定訓練工作負載優化的自研晶片與超級電腦，同時過渡期租用 NVIDIA。策略高風險（自研晶片常低於預期）、高回報（若 Dojo 按設計運行，Tesla 每次 FSD 改進的訓練成本將大幅下降）。主要風險：Dojo D1 可能未達到效能與良率目標，使開發成本相對持續依賴 NVIDIA 難以自圓其說。

第三節 — 正面算力對比

維度	Waymo / Google TPU	Tesla Dojo + NVIDIA	優勢
訓練算力規模（估算）	可存取 Google 完整 TPU 機隊——潛在數百 EFLOPS（估算）；與所有 Google AI 專案共享	Tesla 合計 Dojo 與 NVIDIA 估計數十 EFLOPS（估算）；專用於 Tesla AI 工作負載	Waymo 可存取更多總算力；Tesla 擁有更多專用算力
算力成本結構	實際受補貼（Alphabet 子公司）；無需按市場價格支付 Google TPU	混合模式：Dojo 資本支出分攤於訓練生命週期；NVIDIA H100 按市場價格租用/購買；金額可觀但有限	Waymo 在當前規模下每次訓練算力成本決定性優勢
AV 晶片客製化	TPU 針對 Google 工作負載優化（非 AV 專用）；靈活但未特化	Dojo D1 專為 AV 規模影片訓練設計	Tesla 在晶片適配性上具決定性優勢；Waymo 使用通用 AI 晶片
訓練資料量	約 3,000 萬無人商業駕駛英里（估算）；高純度（全無人 = 乾淨標注）但量少	約 60 億監督式 FSD 英里（估算）；標注純度較低（人類監督）但量巨大	Tesla 在資料量上決定性優勢；Waymo 在資料純度上決定性優勢
模擬規模	每日 150 億模擬英里（估算），透過 CarCraft 運行於 Google Cloud	透過 Dojo 持續成長的模擬能力；規模未披露（估算）	Waymo 在當前模擬規模上決定性優勢
算力路線圖掌控	依賴 Google TPU 路線圖（TPU v5 到 v6 等）；無自主晶片設計	Tesla 掌控自身晶片路線圖；可針對 AV 需求優化 D1 到 D2	Tesla 在算力主權與路線圖掌控上決定性優勢
算力總評	Waymo 的 Google Cloud / TPU 優勢在今天是結構性的：更多總算力、更低有效成本、業界最佳 TPU 效能、無可匹敵的模擬規模。Tesla 的 Dojo 優勢是長期戰略性的：針對特定影片訓練工作負載的專用晶片、獨立路線圖、無需與其他 Alphabet AI 專案共享。2028 年的關鍵問題是 Dojo v2 能否兌現其效能承諾。

第四節 — 算力在 AV 競賽中決定什麼

AI 能力	算力如何決定	Waymo 優勢	Tesla 優勢
感知精度	更好的訓練資料加上更多算力帶來更低的檢測錯誤率；感知模型必須在數十億標注幀上訓練	無人駕駛標注純度：訓練資料無人類監督噪音	60 億英里影片資料；資料量覆蓋罕見案例
預測（其他代理）	建模人類行為需要在多樣化真實場景上訓練；模擬填補真實資料無法覆蓋的空白	每日 150 億模擬英里系統性覆蓋邊緣案例	真實世界資料的規模提供模擬所近似的行為多樣性
規劃（做什麼）	規劃策略訓練需要大規模模擬以安全測試邊緣案例；真實世界測試對罕見場景過於危險且昂貴	Google Cloud 模擬規模在規劃策略改進上決定性	端到端 FSD v12 將感知與規劃合並為一個網路——將算力問題從兩步驟簡化為一步
泛化（新城市）	泛化至新城市需要：(a) 在該城市資料上訓練，或 (b) 對該城市場景進行算力密集的模擬	高精地圖加模擬方式意味著 Waymo 必須在商業啟動前為每座新城市生成地圖並進行模擬	Tesla 的無地圖 FSD 方式不需要城市專用模擬；模型從訓練分佈泛化
模型迭代速度	更快的訓練算力帶來每週更多實驗次數，加快模型改進	更多 TPU 存取意味著可同時進行更多實驗	專用 Dojo 算力意味著無需與其他 Google AI 專案競爭資源

第五節 — 算力基準評分卡

維度	Waymo / Google	Tesla Dojo + NVIDIA	優勢	2028 年展望
總訓練算力存取	決定性 — Google TPU 機隊是地球上最大的 AI 算力部署之一	龐大但未達 Google 規模	Waymo（當前）	隨 Dojo 擴展，Tesla 縮小差距
算力成本效率	決定性 — 作為 Alphabet 子公司實際受補貼	市場價格 NVIDIA 加 Dojo 資本支出	Waymo（當前）	取決於 Dojo D2 交付
AV 工作負載晶片適配	通用 TPU（靈活但非 AV 優化）	Dojo D1 專為影片訓練設計（AV 優化）	Tesla	Tesla 的專用晶片若能兌現是長期優勢
算力路線圖掌控	依賴 Google TPU 路線圖	獨立 Dojo 路線圖	Tesla	Tesla 對晶片路線圖的掌控是戰略資產
模擬規模	決定性 — 每日 150 億模擬英里（估算）	成長中；規模未披露（估算）	Waymo（當前）	雙方均擴展；Waymo 先發優勢顯著
訓練資料品質 × 量	更高純度（無人駕駛），較低量	較低純度（監督式），遠更高量	視使用情境而定	隨 Tesla 車隊成長，量的優勢持續複利
總體評定	Waymo 在今天大多數指標上擁有更優越的算力基礎設施：更多 TPU 存取、更低有效成本，以及全球最佳模擬規模。Tesla 的賭注是 Dojo——專為影片訓練打造——最終將比通用 TPU 實現更低的每次訓練算力成本，且資料量（600 萬輛車）將充分彌補較低的標注純度。2028 年的算力競賽是 Dojo v2 vs TPU v6：哪個晶片路線圖更能滿足大規模訓練通才 AV 策略的特定需求。

所有標注為（估算）的數據來自公司公開披露、分析師估計和行業基準。本文為實體 AI 基準系列第 165 篇。