2026-06-18 — views
實體AI算力對決 — Waymo Google Cloud TPU vs Tesla Dojo D1:訓練基礎設施基準測試 2026
Waymo 使用 Google TPU Pod 並享受補貼算力,每日模擬 150 億英里。Tesla 建造 Dojo D1 專用晶片訓練影片,同步運行 NVIDIA H100 叢集。
概述
AI 訓練算力基礎設施是各公司提升自駕模型能力的核心引擎。Waymo 身為 Alphabet 子公司,使用 Google Cloud TPU——與訓練 Gemini 等 Google AI 系統相同的算力生態系統。Tesla 則自建 Dojo 超級電腦,採用專為大規模影片資料訓練而設計的自研 D1 晶片。本文對兩種算力策略進行基準測試——各公司的資源配置、成本結構,以及對 AI 模型迭代速度的影響。本文為實體 AI 基準系列第 165 篇。
第一節 — Waymo 算力架構:Google Cloud + TPU 生態系統
Waymo 的訓練基礎設施與其 Alphabet 子公司地位密不可分。能夠使用 Google 的 TPU Pod——全球最先進的 AI 訓練基礎設施——是任何獨立 AV 新創公司都無法複製的結構性優勢。
| 算力維度 | Waymo 詳情 | 戰略意義 |
|---|---|---|
| 主要訓練基礎設施 | Waymo 使用 Google Cloud TPU 進行神經網路訓練;身為 Alphabet 子公司,Waymo 可存取 Google 內部 TPU Pod——與訓練 Gemini 等 Google AI 系統相同的基礎設施 | Alphabet 子公司身份使 Waymo 能以邊際成本使用全球最先進的 AI 訓練基礎設施;任何 AV 新創公司都無法獨立承擔同等算力費用 |
| Google TPU v4/v5 世代 | Google TPU v4 Pod 每個提供約 1 exaFLOP 算力;TPU v5(2023 年發布)能效提升估計達 2 倍以上(估算);Waymo 可按需使用這些資源 | TPU v5 效能代表 Transformer 與卷積架構訓練的業界最佳——正是 AV 感知與規劃所採用的架構類型 |
| Google DeepMind 協同效應 | Waymo 有機會獲取 DeepMind 的研究人才與方法論(兩者均為 Alphabet 子公司);DeepMind 在 AlphaFold、Gemini 和機器人領域的研究與 AV 挑戰高度相關 | 跨子公司的知識轉移並非自動實現,但組織鄰近性具有重要意義;DeepMind 的機器人研究直接關聯 Waymo 的預測與規劃問題 |
| 模擬算力(CarCraft) | Waymo 的 CarCraft 模擬系統每日在 Google Cloud 上運行估計 150 億模擬英里(估算);在此規模下模擬罕見、危險和新穎場景需要大量並行算力 | 每日 150 億模擬英里意味著 Waymo 可針對極端邊緣案例(百萬分之一場景)進行訓練,這在真實世界里程中永遠無法獲得足夠數量;Google Cloud 的彈性擴展使此成為可能 |
| 成本結構 | Waymo 不需按市場價格支付 Google Cloud 算力費用;身為 Alphabet 子公司,算力成本實際上受到補貼;Waymo 的訓練預算未單獨披露 | 這項補貼是巨大的結構性優勢:獨立 AV 新創公司若每年支付逾 10 億美元購買同等 Google Cloud 算力,將面臨 Waymo 所沒有的資本限制 |
| 高精地圖算力 | Waymo 的高精地圖以 Google Maps 基礎資料為底,疊加 Waymo 專屬的釐米級雷射掃描豐化;將原始點雲處理成可導航的高精地圖需要大量算力 | Google Maps 現有的地圖渲染與處理算力基礎設施被用於 Waymo 的高精地圖生成——這是 Alphabet 關係帶來的另一項隱性補貼 |
| 算力策略總評 | Waymo 的算力策略是深度優先:使用全球最佳 AI 訓練基礎設施(Google TPU)解決一個定義清晰的窄域問題(自駕感知與規劃),並以 Google 的模擬規模覆蓋邊緣案例。這一策略在 Waymo 當前的運營範圍內效果顯著。主要風險:若 AI 架構向有利於不同算力範式的方向演進,Waymo 將依賴 Google 的路線圖而非自主掌控。 |
第二節 — Tesla 算力架構:Dojo D1 + NVIDIA 叢集
Tesla 的算力策略與 Waymo 截然相反:不借助現有超大規模雲端商的基礎設施,而是自建專為其主要訓練工作負載——影片——優化的晶片與超級電腦。
| 算力維度 | Tesla 詳情 | 戰略意義 |
|---|---|---|
| Dojo 超級電腦架構 | Tesla 專為影片訓練設計 D1 晶片(7nm、362 TFLOPS BF16、每晶片 900 GB/s 記憶體頻寬);D1 晶片組成訓練節點(25 晶片/節點 = 9 PFLOPS),節點組成 ExaPOD 機櫃(120 節點 = 1.1 EFLOPS/ExaPOD),ExaPOD 構成完整 Dojo 叢集 | Dojo 架構針對 Tesla 特定訓練工作負載優化:來自數百萬輛車輛的大批量影片幀。晶片拓撲(圖塊間高頻寬互連)將影片訓練的資料搬移開銷降至最低 |
| Tesla 為何自建晶片 | Tesla 主要訓練工作負載是影片:來自 600 萬輛車輛的數十億個 8 攝像頭影片片段;現有 GPU 和 TPU 架構並非為此特定工作負載模式最優設計;自研晶片使 Tesla 能針對記憶體頻寬、互連拓撲和影片精度格式進行優化 | 自研晶片開發耗資數億美元並需 3–5 年;Tesla 的理由是 5–10 年期間的訓練成本節省超過開發成本——與 Apple 應用於 M 系列晶片的邏輯相同 |
| Dojo vs. NVIDIA GPU 叢集 | Tesla 同時使用 NVIDIA H100 叢集進行訓練(Dojo 補充,並非完全替代 NVIDIA);NVIDIA H100 每 GPU 提供約 2,000 TFLOPS BF16;10,000 GPU H100 叢集 = 20 EFLOPS;Tesla 合計 Dojo 與 NVIDIA 算力估計是非超大規模廠商中最大的單一公司 AI 算力部署之一(估算) | Tesla 的雙軌策略(Dojo 用於影片優化訓練 + NVIDIA 用於通用 AI)體現務實主義:H100 現已可用;Dojo 逐步擴展。同步運行兩者使 Tesla 能持續改進 FSD,無需等待 Dojo 成熟 |
| 訓練資料流 | Tesla 的主要算力優勢是資料而非晶片:600 萬輛車 × 平均每日 FSD 啟用 1 小時 × 8 個攝像頭 = 海量每日影片資料;標注透過資料引擎自動化(影子模式:FSD 做出決策,人類糾正,糾正結果成為標注訓練資料) | 資料引擎本身的算力需求也相當龐大:在數百萬輛車上執行影子模式推論並處理糾正結果,需要大量推論和儲存基礎設施,而不僅僅是訓練算力 |
| Dojo 部署時程 | 第一個 Dojo ExaPOD 於 2022 年在德州 Gigafactory 投入運行;馬斯克目標 2024 年底達到 100 EFLOPS(估算);實際部署進度未完整披露;Tesla 後續對 NVIDIA H100 叢集的持續投入表明 Dojo 擴展速度慢於計劃(估算) | Dojo 擴展慢於計劃與自研晶片的典型時程延誤一致;這並非失敗——而是第一代自研晶片的正常軌跡。NVIDIA H100 在 Dojo v2(下一代)就位前填補缺口 |
| Dojo v2 與未來算力 | Tesla 提及下一代 Dojo 晶片;截至 2026 年中期詳情未披露(估算);若 Dojo v2 遵循典型的每代 2 倍效能提升,Tesla 的訓練算力可能在 2027 年達到數百 EFLOPS(估算) | 軌跡比當前容量更重要:若 Dojo v2 兌現承諾,Tesla 的訓練算力達到超大規模廠商水準,Tesla 將是唯一擁有自研 AI 訓練晶片且達到該規模的非超大規模廠商 |
| 算力策略總評 | Tesla 的算力策略是自建 vs. 外購的最大雄心版本:建造針對特定訓練工作負載優化的自研晶片與超級電腦,同時過渡期租用 NVIDIA。策略高風險(自研晶片常低於預期)、高回報(若 Dojo 按設計運行,Tesla 每次 FSD 改進的訓練成本將大幅下降)。主要風險:Dojo D1 可能未達到效能與良率目標,使開發成本相對持續依賴 NVIDIA 難以自圓其說。 |
第三節 — 正面算力對比
| 維度 | Waymo / Google TPU | Tesla Dojo + NVIDIA | 優勢 |
|---|---|---|---|
| 訓練算力規模(估算) | 可存取 Google 完整 TPU 機隊——潛在數百 EFLOPS(估算);與所有 Google AI 專案共享 | Tesla 合計 Dojo 與 NVIDIA 估計數十 EFLOPS(估算);專用於 Tesla AI 工作負載 | Waymo 可存取更多總算力;Tesla 擁有更多專用算力 |
| 算力成本結構 | 實際受補貼(Alphabet 子公司);無需按市場價格支付 Google TPU | 混合模式:Dojo 資本支出分攤於訓練生命週期;NVIDIA H100 按市場價格租用/購買;金額可觀但有限 | Waymo 在當前規模下每次訓練算力成本決定性優勢 |
| AV 晶片客製化 | TPU 針對 Google 工作負載優化(非 AV 專用);靈活但未特化 | Dojo D1 專為 AV 規模影片訓練設計 | Tesla 在晶片適配性上具決定性優勢;Waymo 使用通用 AI 晶片 |
| 訓練資料量 | 約 3,000 萬無人商業駕駛英里(估算);高純度(全無人 = 乾淨標注)但量少 | 約 60 億監督式 FSD 英里(估算);標注純度較低(人類監督)但量巨大 | Tesla 在資料量上決定性優勢;Waymo 在資料純度上決定性優勢 |
| 模擬規模 | 每日 150 億模擬英里(估算),透過 CarCraft 運行於 Google Cloud | 透過 Dojo 持續成長的模擬能力;規模未披露(估算) | Waymo 在當前模擬規模上決定性優勢 |
| 算力路線圖掌控 | 依賴 Google TPU 路線圖(TPU v5 到 v6 等);無自主晶片設計 | Tesla 掌控自身晶片路線圖;可針對 AV 需求優化 D1 到 D2 | Tesla 在算力主權與路線圖掌控上決定性優勢 |
| 算力總評 | Waymo 的 Google Cloud / TPU 優勢在今天是結構性的:更多總算力、更低有效成本、業界最佳 TPU 效能、無可匹敵的模擬規模。Tesla 的 Dojo 優勢是長期戰略性的:針對特定影片訓練工作負載的專用晶片、獨立路線圖、無需與其他 Alphabet AI 專案共享。2028 年的關鍵問題是 Dojo v2 能否兌現其效能承諾。 |
第四節 — 算力在 AV 競賽中決定什麼
| AI 能力 | 算力如何決定 | Waymo 優勢 | Tesla 優勢 |
|---|---|---|---|
| 感知精度 | 更好的訓練資料加上更多算力帶來更低的檢測錯誤率;感知模型必須在數十億標注幀上訓練 | 無人駕駛標注純度:訓練資料無人類監督噪音 | 60 億英里影片資料;資料量覆蓋罕見案例 |
| 預測(其他代理) | 建模人類行為需要在多樣化真實場景上訓練;模擬填補真實資料無法覆蓋的空白 | 每日 150 億模擬英里系統性覆蓋邊緣案例 | 真實世界資料的規模提供模擬所近似的行為多樣性 |
| 規劃(做什麼) | 規劃策略訓練需要大規模模擬以安全測試邊緣案例;真實世界測試對罕見場景過於危險且昂貴 | Google Cloud 模擬規模在規劃策略改進上決定性 | 端到端 FSD v12 將感知與規劃合並為一個網路——將算力問題從兩步驟簡化為一步 |
| 泛化(新城市) | 泛化至新城市需要:(a) 在該城市資料上訓練,或 (b) 對該城市場景進行算力密集的模擬 | 高精地圖加模擬方式意味著 Waymo 必須在商業啟動前為每座新城市生成地圖並進行模擬 | Tesla 的無地圖 FSD 方式不需要城市專用模擬;模型從訓練分佈泛化 |
| 模型迭代速度 | 更快的訓練算力帶來每週更多實驗次數,加快模型改進 | 更多 TPU 存取意味著可同時進行更多實驗 | 專用 Dojo 算力意味著無需與其他 Google AI 專案競爭資源 |
第五節 — 算力基準評分卡
| 維度 | Waymo / Google | Tesla Dojo + NVIDIA | 優勢 | 2028 年展望 |
|---|---|---|---|---|
| 總訓練算力存取 | 決定性 — Google TPU 機隊是地球上最大的 AI 算力部署之一 | 龐大但未達 Google 規模 | Waymo(當前) | 隨 Dojo 擴展,Tesla 縮小差距 |
| 算力成本效率 | 決定性 — 作為 Alphabet 子公司實際受補貼 | 市場價格 NVIDIA 加 Dojo 資本支出 | Waymo(當前) | 取決於 Dojo D2 交付 |
| AV 工作負載晶片適配 | 通用 TPU(靈活但非 AV 優化) | Dojo D1 專為影片訓練設計(AV 優化) | Tesla | Tesla 的專用晶片若能兌現是長期優勢 |
| 算力路線圖掌控 | 依賴 Google TPU 路線圖 | 獨立 Dojo 路線圖 | Tesla | Tesla 對晶片路線圖的掌控是戰略資產 |
| 模擬規模 | 決定性 — 每日 150 億模擬英里(估算) | 成長中;規模未披露(估算) | Waymo(當前) | 雙方均擴展;Waymo 先發優勢顯著 |
| 訓練資料品質 × 量 | 更高純度(無人駕駛),較低量 | 較低純度(監督式),遠更高量 | 視使用情境而定 | 隨 Tesla 車隊成長,量的優勢持續複利 |
| 總體評定 | Waymo 在今天大多數指標上擁有更優越的算力基礎設施:更多 TPU 存取、更低有效成本,以及全球最佳模擬規模。Tesla 的賭注是 Dojo——專為影片訓練打造——最終將比通用 TPU 實現更低的每次訓練算力成本,且資料量(600 萬輛車)將充分彌補較低的標注純度。2028 年的算力競賽是 Dojo v2 vs TPU v6:哪個晶片路線圖更能滿足大規模訓練通才 AV 策略的特定需求。 |
所有標注為(估算)的數據來自公司公開披露、分析師估計和行業基準。本文為實體 AI 基準系列第 165 篇。
來源
- Tesla Dojo D1 晶片架構 — Tesla AI Day 2021 ↗
- Google TPU v5 發布 — Google Cloud ↗
- Waymo CarCraft 模擬系統 — Waymo 研究部落格 ↗
- Tesla FSD 訓練資料流 — Tesla AI Day 2022 ↗
- Google Alphabet AI 基礎設施 — Alphabet 財報 ↗