2026-06-18 — views
Physical AI 運算力 2026 — Waymo Google TPU 對比 Tesla Dojo D1 與 FSD 晶片:AI 訓練基礎設施基準測試
Waymo 使用 Google TPU 叢集訓練模型;Tesla 以 Dojo D1 加上 600 萬輛車隊數據訓練。訓練算力差距是 Physical AI 隱形的速度限制器。
實體 AI 基準系列第 182 篇:AI 訓練與推論基礎設施
建立全球最佳自動駕駛系統的競賽,同時也是 AI 算力的競賽。訓練算力決定每家公司改善模型的速度;推論算力決定這些改良後的模型是否能在車輛中即時運行。兩個維度都至關重要——卻鮮少有人以分析感測器硬體、安全里程或法規許可的同等嚴謹態度來分析它們。本文以 AI 訓練與推論基礎設施作為核心 Physical AI 競爭變數,對 Waymo 與 Tesla 進行基準測試。
第一節:AI 訓練算力為何是 Physical AI 的速度限制器
自動駕駛在本質上是一個機器學習問題。自動駕駛系統的品質受兩件事限制:訓練數據的品質,以及可用於訓練的算力。更多算力能訓練更大的模型、執行更多實驗、加快迭代週期、並提升泛化能力。同一份數據集在十倍算力下訓練,可靠地產出更好的模型。訓練算力是「改進速率」的槓桿——決定品質天花板上升速度的變數。
兩個關鍵算力維度主導 Physical AI 競賽:
訓練算力 — 用於離線改善模型,在總部進行。這是 Google TPU 與 Tesla Dojo 的戰場。訓練算力是幕後加速器,不影響今日的車輛,卻決定下一季軟體更新的品質。
推論算力 — 車輛內部即時運行模型的晶片。這是 Tesla FSD HW3/HW4 晶片與 Waymo 車內算力的戰場。推論算力決定當前車輛今天能安全執行什麼。
訓練與推論是分開的課題。一家公司可以擁有頂尖訓練算力卻車內推論能力有限,反之亦然。複利優勢來自在兩者上都表現出色。
NVIDIA 主導地位是基準線: 大多數 AV 公司——Zoox、Aurora、Mobileye、Cruise——在 NVIDIA GPU 叢集(A100、H100、H200)上訓練模型。這是商品化基準線。有趣的競爭差異化來自兩個方向偏離基準的公司:(1)使用專有非 NVIDIA 訓練晶片(Waymo 透過 Google TPU,Alphabet 是母公司);(2)投資自製訓練晶片(Tesla 透過 Dojo D1)。
垂直整合的稀少性: Tesla 是極少數同時建造自製訓練晶片(Dojo D1)與自製推論晶片(FSD 晶片,台積電代工)的公司之一。這種垂直整合代價高昂且技術難度極高,但提供了不依賴 NVIDIA 供應限制與成本結構的戰略獨立性。沒有其他 AV 公司接近 Tesla 的晶片垂直整合程度。
第二節:Waymo 的算力優勢:Google TPU 存取
Waymo 在訓練算力上的結構性優勢來自一個事實:它是 Alphabet 的子公司。Alphabet 建立了全球最大的自製 AI 算力部署之一,Waymo 以內部轉讓定價在這個基礎設施上訓練其模型。
| 維度 | 詳情 |
|---|---|
| 訓練基礎設施 | Waymo 在 Google 的 TPU(張量處理器)叢集上訓練模型。Google 擁有全球最大的 TPU 部署之一。作為 Alphabet 子公司,Waymo 以內部轉讓定價獲得優先存取——遠低於商業 GPU 叢集租用費率。 |
| Google TPU v4 規格 | Google TPU v4 每顆晶片提供估計 275 TFLOPS(BF16)。TPU v5e 每顆提供估計 197 TFLOPS,但記憶體頻寬與互連架構顯著提升。Google 運行由數百至數千顆晶片透過高頻寬網路互連的 TPU Pod。 |
| 有效訓練容量 | Waymo 從 Alphabet 基礎設施獲得的有效訓練算力,可能超越任何獨立 AV 新創公司和大多數 AV 子公司。只有 Zoox(亞馬遜 AWS)和 Waymo(Google TPU)擁有此層級的雲端母公司算力優勢。 |
| 算力存取成本 | Waymo 以內部轉讓定價向 Alphabet 支付算力費用,估計遠低於等效 GPU 叢集的市場價格。確切數字未公開披露。 |
| 訓練數據管線 | Waymo 的訓練數據來自其無人商業車隊(商業乘車的感測器數據)、高精地圖數據及 Carcraft 模擬。LIDAR 加攝影機加雷達產生多模態訓練數據,每幀的信號比純視覺方法更豐富。 |
| Carcraft 模擬 | Waymo 使用其 Carcraft 模擬平台大規模生成合成訓練場景。Carcraft 據稱每天可運行數百萬英里的模擬。模擬加真實世界數據構成 Waymo 的綜合訓練數據集。 |
| 與獨立 AV 公司的比較 | Waymo 的 Google TPU 存取是相對於必須在公開市場購買或租用 NVIDIA GPU 叢集的 AV 公司的結構性算力優勢。Aurora、Mobileye、Zoox(有 AWS)都在 GPU 叢集層級運作。Waymo 透過母公司存取在 TPU Pod 層級運作。 |
| Waymo 的關鍵算力制約 | 儘管有 Google TPU 存取,Waymo 的訓練數據量受車隊規模限制——截至 2026 年中估計約 2,500 輛。Tesla 600 萬輛以上支援 FSD 的車隊產生的訓練數據在量級上遠超 Waymo。算力無法彌補如此巨大的數據量差距。 |
Waymo 處境的結構性張力: Waymo 擁有幾乎任何競爭對手都無法匹敵的訓練算力存取——但訓練數據量遠少於 Tesla。問題在於:每個數據點的更多算力,能否替代更少的總數據點?在機器學習規模化中,經驗答案通常是否定的:超過閾值後,足夠品質的數據量幾乎總是勝過每樣本算力效率的提升。
第三節:Tesla Dojo:自製訓練晶片的規模化
Tesla 在 Dojo D1 上的戰略押注,是科技業中最雄心勃勃的自製晶片專案之一。從頭建造自製 AI 超級電腦——設計晶片、互連、散熱、軟體堆疊及訓練框架——需要幾乎沒有其他公司嘗試過的多年資本與工程人才承諾。
| 維度 | 詳情 |
|---|---|
| Dojo 是什麼 | Dojo 是 Tesla 專為影片訓練打造的自製 AI 超級電腦——這是 FSD 訓練的主導模態。Tesla 車隊產生數十億英里的攝影機影像。有效率地大規模處理這些數據需要專為影片工作負載優化的硬體,而非通用 ML。Dojo 就是這個硬體。 |
| D1 晶片規格(估) | Tesla D1 晶片:估計 362 TFLOPS(BF16)每顆。透過自製晶片間介面設計高頻寬互連。25 顆 D1 晶片拼接成一個「訓練磁磚」。磁磚連接成 ExaPOD 機櫃。架構設計旨在最小化晶片間數據移動成本——大規模影片訓練的主要成本。所有數字均為 Tesla AI Day 2022 披露資料的估算值。 |
| Dojo vs. NVIDIA H100 | NVIDIA H100:估計 989 TFLOPS(BF16)每顆——約為 D1 每晶片吞吐量的 2.7 倍。然而 D1 的設計目標是大規模部署時更低的每 FLOP 成本,針對 Tesla 運行的影片訓練工作負載而非通用 ML 優化。在足夠大的規模下,Dojo 架構可能為 Tesla 的特定工作負載提供更好的成本效率。 |
| Dojo 規模(估) | Tesla 於 2023-2024 年開始擴大 Dojo 容量。目標:2025-2026 年達到多 exaFLOP 叢集(估)。確切目前已部署容量尚未公開披露。Elon Musk 在多個股東和產品活動中引用了激進的 Dojo 擴展目標。 |
| Tesla 建造 Dojo 的原因 | 三個動機:(1)2021-2023 年短缺期間 NVIDIA GPU 供應限制造成單一來源依賴風險;(2)Tesla 特定影片訓練工作負載在規模化時每 FLOP 成本更低;(3)擺脫 NVIDIA 定價和配額決策的戰略獨立性。潛在的第四個動機:將 Dojo 算力作為服務出售給外部 AI 和影片處理公司。 |
| Dojo 訓練應用 | 主要:FSD 影片訓練——處理來自 Tesla 600 萬輛以上車隊的數十億英里攝影機影像。次要:Optimus 人形機器人使用相同影片方法的神經網路訓練。潛在未來:作為商業算力服務的外部 AI 和影片訓練工作負載。 |
| Dojo 加 NVIDIA 混合 | Tesla 也在 Dojo 旁邊運行大型 NVIDIA H100 叢集。2024 年的估計引用了 Tesla 訓練基礎設施中約 3 萬顆以上 H100 GPU(估)。Dojo 是附加容量,而非短期內替代 NVIDIA 的方案。 |
| Dojo 資本支出(估) | 建造 Dojo 的資本極為密集。Tesla 已引用截至 2024 年超過 10 億美元(估)的 Dojo 投資。持續擴展將增加這個數字。這是一個對自製晶片而非 NVIDIA 商品路線的重大多年資本押注。 |
第四節:車內推論:FSD 晶片 vs. Waymo 車內算力
訓練算力與推論算力是分開的競賽。更好的訓練叢集產出更好的模型。但這些模型隨後必須在車輛內部的硬體上以低延遲、低功耗且具備足夠邊界情況處理餘裕的方式即時運行。車內推論晶片是 Physical AI 的「最後一哩路」——將訓練改善轉化為真實世界駕駛能力的元件。
| 維度 | Waymo | Tesla FSD | 備註 |
|---|---|---|---|
| 車內算力平台 | Waymo 在其車輛中使用自製算力硬體。具體晶片規格未公開披露。硬體必須同時即時運行感知融合(LIDAR + 攝影機 + 雷達)、預測和規劃。 | Tesla HW3:估計 144 TOPS——大多數現有 FSD 相容車輛搭載。Tesla HW4:估計 1,000+ TOPS——2023 年初以來的新車型。硬體世代間的顯著飛躍。 | Tesla 已公開披露 FSD 晶片架構詳情。Waymo 未披露其車內硬體規格。 |
| 自製晶片 | Waymo 尚未宣布自製車內推論晶片。車內算力可能使用商業加速器硬體。 | Tesla 設計自己的 FSD 推論晶片,由台積電代工。內部晶片設計團隊已執行多個晶片世代(HW1 至 HW4)。這對 AV 公司來說極為罕見。 | Tesla 從訓練(Dojo)到推論(FSD 晶片)的晶片垂直整合在 AV 公司中無可匹敵。 |
| 推論效率 | Waymo 的多感測器融合(LIDAR + 攝影機 + 雷達)每幀需要大量算力來融合多種模態。每感測器幀的計算負載高於純視覺方法。 | Tesla 的純視覺方法降低了每感測器的算力需求,但端到端神經網路模型很大。HW4 的 1,000+ TOPS 為更大的模型和更複雜的推論提供了充足餘裕。 | Tesla HW4 的算力餘裕可能啟用 HW3 無法支援的能力——加速新款車輛軟體改善的天花板。 |
| OTA 模型部署 | Waymo 透過 OTA 在其車隊中更新軟體和 ML 模型。車隊中所有車輛同時收到模型改善。 | Tesla 透過 OTA 更新 FSD 軟體。硬體能力固定(HW3 vs. HW4),但軟體可以在現有硬體算力範圍內持續提取更多能力。 | 兩個車隊都透過 OTA 同時接收模型改善。Tesla 的 600 萬輛以上車隊將每次模型改善分發到更大的基礎。 |
| 車隊整體改善乘數 | Waymo 估計 2,500 輛車隊同時受益於模型更新。 | Tesla 的 600 萬輛以上 FSD 相容車輛同時收到相同的 OTA 模型更新。 | 每次模型改善的價值隨車隊規模倍增。Tesla 的車隊乘數約為 Waymo 的 2,400 倍。 |
第五節:AI 算力基準計分卡
| 維度 | Waymo / Alphabet | Tesla | 2028 展望 | 優勢 |
|---|---|---|---|---|
| 訓練算力存取 | Google TPU Pod 基礎設施(大規模,內部轉讓定價) | NVIDIA H100 叢集(估計 3 萬顆以上)加 Dojo D1(自製,成長中) | 兩者規模龐大;Dojo 擴展縮小差距 | 大致相當——Waymo Google TPU vs. Tesla Dojo + NVIDIA |
| 訓練算力成本 | 內部轉讓定價——估計遠低於市場價格 | 大量資本支出(Dojo)加營運支出(NVIDIA 叢集租用,估) | Dojo 每 FLOP 成本在規模化後可能大幅下降 | Waymo(短期訓練成本可能較低) |
| 訓練數據量 | 受估計 2,500 輛車隊限制——比 Tesla 少好幾個數量級 | 600 萬輛以上 FSD 相容車輛持續產生真實世界攝影機數據 | 隨 Tesla 車隊成長差距持續擴大 | Tesla(壓倒性且複利性的優勢) |
| 自製訓練晶片 | 無——使用 Alphabet/Google TPU(Google 設計,非 Waymo 設計) | Dojo D1(Tesla 設計,不依賴 NVIDIA,自製影片訓練架構) | Tesla 朝 Dojo 自給自足邁進 | Tesla(戰略獨立性) |
| 車內推論晶片 | 自製硬體——規格未公開披露 | HW3(估計 144 TOPS)加 HW4(估計 1,000+ TOPS),台積電代工自製 FSD 晶片 | HW5 可能在研發中;Tesla 推論路線圖持續推進 | Tesla(公開規格,HW4 餘裕充足) |
| OTA 改善部署 | 估計 2,500 輛車隊接收每次模型更新 | 600 萬輛以上車輛同時接收每次 OTA 模型更新 | 隨車隊成長差距擴大 | Tesla |
| 垂直整合 | 部分——訓練用 Google TPU,推論用未披露硬體 | 高度——訓練用 Dojo,推論用自製 FSD 晶片,OTA 軟體堆疊 | Tesla 是晶片層面最垂直整合的 AV 公司 | Tesla |
總體裁決: Waymo 存取 Google TPU 基礎設施的能力,相對於獨立 AV 新創公司和大多數 AV 子公司是有意義的訓練算力優勢——但無法彌補 Waymo 小型車隊造成的訓練數據缺口。Tesla 的數據優勢(600 萬輛以上車輛產生數十億英里真實世界數據)加上 Dojo 成長中的訓練容量與 FSD 晶片的推論算力,創造了沒有任何競爭對手能夠匹敵的數據加算力複利飛輪。
本分析最重要的洞見:在規模化機器學習中,足夠品質的數據量幾乎總是勝過單純的算力量。Tesla 既擁有比任何競爭對手都多的數據,又擁有成長中的算力。Waymo 每個數據點擁有更多算力——但數據點少了好幾個數量級。在最重要的維度上,訓練軍備競賽目前對 Tesla 有利:(訓練數據量)乘以(模型迭代速度)的乘積。Waymo 的 Google TPU 優勢是真實的。Tesla 的數據飛輪更大。
第六節:關於本系列
本文為實體 AI 基準系列第 182 篇。前幾篇涵蓋了加速指數、人形機器人競賽、單位經濟學、全球競爭、高精地圖、車隊運營、軟體與 OTA 架構、保險與責任、合作關係、競爭護城河、Cybercab 對比 Model Y、安全數據、Waymo Gen 6、Optimus 製造、計分卡快照、2030 年預測情景、投資者框架、Waymo 城市擴張、Tesla 州批准地圖、AV 天候限制、人才戰爭、法規日曆、機器人出租車費率定價、數據飛輪比較、人形機器人部署追蹤、供應鏈分析、消費者採用需求、Waymo 估值與 IPO 分析、軟體架構深度解析,以及 FSD 時間線歷史。
本文新增了 AI 訓練基礎設施維度:每家公司部署了哪些訓練算力、其車內推論硬體如何比較,以及為何訓練數據量與訓練算力容量的交互作用是 Physical AI 品質改善的隱形速度限制器。算力軍備競賽對大多數分析師來說是不可見的——但正是這一層決定了每家公司下一次軟體更新的品質天花板上升速度。
來源
- Tesla Dojo AI 超級電腦 — Tesla AI Day 2022 ↗
- Tesla FSD 晶片規格 — Tesla ↗
- Google TPU 基礎設施 — Google Cloud ↗
- Waymo 研究與 ML 基礎設施 — Waymo Research ↗