2026-06-18 — views
Tesla Dojo 超級電腦 — 自研 AI 晶片與 FSD 背後的算力擴展論點
Tesla 自研 Dojo D1 晶片是 FSD 與 Optimus 訓練的算力核心 — 押注更快的訓練吞吐量能持續複利帶來更好的自動駕駛。
Physical AI 基準測試系列第 111 篇 — Tesla Dojo 超級電腦深度解析:自研 AI 訓練晶片、FSD 背後的算力擴展論點,以及訓練吞吐量如何決定自動駕駛進步速度
訓練算力是自動駕駛競賽中隱藏的關鍵變數。所有人都在關注脫離率、Robotaxi 發布與安全報告——這些都是競賽的可見輸出。但支撐這些輸出的引擎是訓練算力:一家公司能處理多少資料、能以多快的速度執行實驗,以及能以多快的速度疊代實際驅動汽車的神經網路策略。Tesla 的 Dojo 超級電腦是公司的押注:這個變數如此關鍵,值得從頭打造自研晶片,而非向 NVIDIA 租用 GPU 或使用 Google 的 TPU。
這與 AV 領域所有其他公司的戰略立場截然不同。Waymo 使用 Google TPU 和 NVIDIA GPU 叢集——為通用 AI 工作負載設計的晶片,向既有供應商租用或購買。Tesla 則認為 FSD 訓練工作負載足夠特殊,且擁有訓練算力堆疊的競爭優勢足夠巨大,值得建構專門針對視訊訓練最佳化的自研晶片,不論成本、工程複雜度與多年時間軸如何。
第一節 — 為何訓練算力對 FSD 至關重要
訓練算力與 FSD 性能之間的連結,表面上並不直觀。FSD 運行於每輛 Tesla 車內的晶片——HW4 車載電腦——該晶片執行所有實時推論以駕駛汽車。Dojo 不在車上,Dojo 在資料中心。但 Dojo 的工作——訓練最終部署到 HW4 的神經網路權重——決定了每個 FSD 版本的品質上限。
| 原則 | 說明 | FSD 含義 |
|---|---|---|
| 擴展定律 | 神經網路性能隨更多算力、更多資料與更大模型可預測地提升(Chinchilla 擴展定律;OpenAI 擴展論文) | 若 FSD 遵循擴展定律,更多訓練算力 = 更好的駕駛策略——與 LLM 因更多算力而更聰明的原理相同 |
| 視訊需要龐大算力 | 對原始攝影機視訊(依 Tesla 揭露規格:1280x960 x 8 個攝影機 x 36Hz)進行訓練產生海量資料;視訊 token 處理代價昂貴 | FSD v12+ 是端對端在視訊上訓練的;訓練一次模型疊代需要處理數十億幀 |
| 疊代速度 | 更快的訓練算力 = 單位時間內更多實驗 = 更快的改進週期 | 能進行 10 倍實驗的團隊能更快找到更好的模型架構 |
| 資料飛輪 x 算力飛輪 | Tesla 的資料優勢(600 萬+ 輛車)只有在算力能跟上資料攝入速率時才能複利 | 沒有足夠算力,資料飛輪就會放緩——收集的資料閒置未處理 |
| 推論 vs 訓練 | Dojo 用於訓練(尋找模型權重);每輛 Tesla 車輛使用車載 HW4 晶片進行推論(實時運行模型) | 兩個獨立的算力問題:Dojo(大規模、集中式訓練)vs HW4(高效、分散式推論) |
擴展定律論點是 Dojo 論點的核心。這在 LLM 領域已有實證:GPT-4 優於 GPT-3 不是因為 OpenAI 找到了截然不同的架構,而是因為他們用更多算力在更多資料上訓練了更大的模型。Tesla 的問題是相同定律是否適用於自動駕駛——更多視訊資料上的更多訓練算力是否能可靠地產生更好的駕駛策略。Tesla 領導層已明確表達這一信念,而 FSD v12 的端對端架構正是其實現。
第二節 — Dojo D1 晶片架構
Dojo D1 晶片是 Tesla 自研晶片策略的原子。Tesla 在 2022 年 AI Day 上揭露了關鍵規格。理解架構需要理解 Tesla 為何而最佳化:不是通用 AI 計算,而是專門針對視訊訓練工作負載。
| 規格 | 數值 | 脈絡 |
|---|---|---|
| 製程節點 | TSMC 7nm | 與部分 NVIDIA A100 生產批次相同節點;非最新節點,但針對成本/密度最佳化 |
| 每晶片算力 | ~362 TFLOPS BF16(已揭露) | 與 NVIDIA A100(312 TFLOPS BF16)相當;D1 針對頻寬效率最佳化 |
| 片上記憶體 | 50MB SRAM(已揭露) | 比 GPU 設計大得多的 SRAM;降低視訊訓練的記憶體頻寬瓶頸 |
| 記憶體頻寬 | 訓練瓦片內晶片間互連 ~10 TB/s(已揭露) | 關鍵差異化:D1 晶片在瓦片內以極高頻寬相互連接;消除了 NVLink 等效瓶頸 |
| 瓦片結構 | 每個訓練瓦片 25 顆 D1 晶片;每個 ExaPOD 120 個訓練瓦片(已揭露) | ExaPOD:3,000 顆 D1 晶片,~1.1 ExaFLOP BF16 算力 |
| ExaPOD 規格 | ~1.1 ExaFLOP BF16(已揭露目標) | 一個 ExaPOD = ~1 ExaFLOP;生產中多個 ExaPOD(估計) |
| 核心設計哲學 | 消除 CPU-GPU 記憶體層級瓶頸;D1 是統一計算結構,晶片以極高頻寬點對點通信 | 傳統 GPU 訓練受限於 CPU→GPU 資料傳輸和 NVLink 頻寬;D1 為視訊工作負載繞過此限制 |
50MB 片上 SRAM 數字值得特別關注。標準 GPU 架構使用 DRAM 作為主要記憶體池——對通用 AI 工作負載而言足夠快,但在訓練需要相鄰幀一起處理的大型視訊剪輯時存在根本頻寬上限。D1 更大的片上 SRAM 使更多資料更接近計算單元,減少昂貴的片外記憶體存取頻率。
ExaPOD 是可部署的單位:每個瓦片 25 顆 D1 晶片,每個 ExaPOD 120 個瓦片,共 3,000 顆 D1 晶片,每個 ExaPOD 約 1.1 ExaFLOP BF16 算力。作為參考,ExaFLOP 是每秒 10^18 次浮點運算——這在 2022 年之前還是國家超級計算設施的領域。
第三節 — Dojo vs NVIDIA GPU 叢集比較
支持 Dojo 的理由並不是 D1 在絕對指標上優於 H100。NVIDIA 的 H100 是一款出色的晶片,擁有成熟的軟體生態系統和廣泛的適用性。支持 Dojo 的理由是:擁有垂直整合的訓練堆疊——晶片、軟體、訓練流程,全部針對一個工作負載最佳化——產生的戰略優勢是租用 H100 無法複製的,即使每 FLOP 計算規格相當。
| 維度 | Tesla Dojo(D1 / ExaPOD) | NVIDIA H100/H200 叢集 |
|---|---|---|
| 硬體所有權 | 自研晶片;Tesla 擁有完整堆疊(晶片→軟體→訓練流程) | 第三方;按 GPU 付費或購買硬體;NVIDIA 控制路線圖 |
| 視訊訓練效率 | 專門針對視訊最佳化(大 SRAM、高晶片間頻寬);對 FSD 工作負載有優勢(估計) | 通用目的;擅長 Transformer 訓練;視訊訓練可行但非專門最佳化 |
| 軟體堆疊 | Tesla 專有;無 CUDA 相容性;需要自訂 ML 框架 | CUDA 生態系統;PyTorch / JAX / TF 均有最佳化 CUDA 後端;龐大工具鏈 |
| 資本成本 | 前期成本極高(建構自研晶片封裝、基礎設施) | 租用或購買;OpEx 友好;H100 ~$30K-$40K/顆(估計) |
| 彈性 | Dojo 針對 Tesla 特定工作負載最佳化;難以改作其他用途 | H100 叢集可運行任何工作負載;可改作其他用途 |
| 規模上限 | 受 Tesla 自身建設速度限制;ExaPOD 生產速率 | NVIDIA 在當前需求水準下可供應基本上無限量的 H100(估計) |
| 供應商風險 | Tesla 控制供應;無供應商依賴 | 受 NVIDIA 定價、分配優先順序、出口管制影響 |
| 當前容量 | 多個 ExaPOD 已運行;確切容量未揭露;Tesla 已表示 Dojo 正在生產訓練使用(估計) | Waymo 使用 Google TPU(Alphabet 內部)+ NVIDIA GPU(估計) |
軟體堆疊問題是這一比較中最被低估的要素。CUDA 有三十年的先發優勢。每個主要 ML 框架都有由專家團隊維護的最佳化 CUDA 後端。每篇對新訓練技術進行基準測試的論文都使用 CUDA。Tesla 決定打造與 CUDA 不相容的自研晶片,意味著要建立和維護一個平行軟體堆疊,吸引願意在 CUDA 生態系統之外工作的工程師,並從頭實現每一個訓練最佳化,而不是從 PyTorch 社群繼承它們。
第四節 — HW4:邊緣端推論
Dojo 訓練模型。HW4 運行模型。兩個算力問題被部署流程分隔:訓練產生模型權重,權重被壓縮並為推論最佳化,然後通過 OTA 更新推送到車輛。HW4 在汽車行駛時實時執行模型。
| 規格 | HW4(Tesla 當前車載晶片) | HW3(前代) |
|---|---|---|
| TOPS(每秒兆次運算) | ~720 TOPS(已揭露) | 144 TOPS |
| 提升幅度 | 相比 HW3 約 5 倍 | — |
| 製程節點 | TSMC 4nm(估計) | 三星 14nm |
| 支援攝影機 | 最多 8 個全解析度攝影機 | 8 個攝影機(相同) |
| 網路頻寬 | 乙太網路感測器網路(vs 舊設計的 CAN bus) | CAN bus |
| FSD 版本 | HW4 為 FSD v12+ 端對端所需(估計);HW3 運行舊版 FSD | 運行 FSD 至 v11(估計) |
| HW4 車隊普及率 | 2023 年起所有新 Tesla 車輛均配備 HW4;HW3 車隊仍龐大(估計) | HW3 車輛是升級挑戰——需要硬體改裝才能獲得完整 FSD v12+ 效益 |
| 成本 | 未單獨揭露;為車輛製造成本的一部分 | — |
HW3 到 HW4 的轉換揭示了 AV 產業中的結構性挑戰:車載推論硬體決定了車輛能運行哪些 FSD 版本。HW3 車輛無法以全能力運行 FSD v12+,因為模型比 HW3 能以實時幀率執行的規模更大(估計)。這意味著整個 HW3 車隊——每輛 2023 年前出售的 Tesla——無論 Dojo 驅動的訓練改進多少,都在運行較舊、能力較弱的 FSD 版本。
第五節 — Dojo 作為基準測試訊號
對於 Physical AI 基準測試系列而言,Dojo 不僅僅是一顆晶片——它是一組可觀察的訊號,揭示 Tesla 的算力擴展論點是否在發揮作用。
| 訊號 | 觀察指標 | 重要原因 |
|---|---|---|
| ExaPOD 數量 | 有多少 ExaPOD 正在運行並訓練 FSD | 可用訓練算力的直接代理;更多 ExaPOD = 更快的模型疊代 |
| 訓練運行頻率 | Tesla 多頻繁推出新 FSD 版本 | FSD 更新節奏(每週/月/季)反映訓練吞吐量 |
| 脫離率趨勢 | 每千英里關鍵脫離率的時間趨勢 | 若 Dojo 擴展定律論點正確,脫離率應隨算力擴展持續下降 |
| Dojo vs 雲端成本 | Dojo 是否比租用 NVIDIA H100 提供更好的每 FLOP 成本 | 若 Dojo 在規模上比雲端更貴,自研晶片押注在經濟上失敗 |
| HW4 車隊普及率 | Tesla FSD 車隊中 HW4 的比例 | HW4 車輛獲得最強大的 FSD;HW3 車輛在推論端受算力限制 |
| Optimus 訓練整合 | Dojo 是否也在訓練 Optimus 策略(通用機器人) | 若 Dojo 同時訓練 FSD 和 Optimus,算力分配成為戰略變數 |
最具可行性的訊號是 FSD 更新節奏。若 Dojo 正在以 Tesla 宣稱的規模產生訓練吞吐量,FSD 模型更新的頻率應當是可測量的。每週更新表明訓練流程正常運作且吞吐量高;每季更新則表明訓練流程是瓶頸,或部署週期受算力以外的因素限制。
第六節 — 戰略背景:Dojo 對 AV 競爭格局的意義
Dojo 投資不能孤立評估。它是一個戰略選擇,揭示了 Tesla 相對於競爭對手如何看待 AV 競賽——而這種思考對 physical AI 領域的每家公司都有影響。
根本押注是:自動駕駛更多是訓練算力問題,而非資料收集問題、感測器問題或地圖問題。Waymo 擁有出色的地圖、出色的感測器融合,以及訪問 Google 算力資源的能力。但 Waymo 的訓練循環更慢,因為其資料收集規模(數百輛車對比數百萬輛)從根本上更小。若訓練算力和資料量是 FSD 品質的主要決定因素,Waymo 的感測器優勢不足以填補差距。
Tesla 的替代假設——純攝影機感知若在足夠資料上用足夠算力訓練即可用於 AV——是這一信念的架構表達。若純攝影機、算力擴展訓練產生的駕駛策略優於在更少資料上訓練的雷達輔助系統,Dojo 投資即得到驗證。
注意: 標記「(估計)」的數字是基於 2026 年中期公開可用資訊的方向性估計。Tesla 未完整公開揭露 Dojo 容量、ExaPOD 數量及訓練算力詳情。本文不構成投資建議。
來源
- Tesla AI Day 2022 — Dojo D1 晶片發表 — Tesla ↗
- Tesla HW4 自動駕駛電腦 — Tesla ↗
- Chinchilla 擴展定律 — Hoffmann 等 2022 — arXiv ↗
- NVIDIA H100 規格 — NVIDIA ↗
- Tesla Q1 2026 財報 — 算力基礎建設揭露 — Tesla IR ↗