2026-06-18 — views
Tesla Dojo vs. 雲端算力 — FSD 與 Optimus 訓練背後的自建與外購決策
Tesla 自研 Dojo 叢集與租用 H100/B200 雲端算力的架構、經濟模型與戰略意涵全面比較分析。
實體 AI 基準系列 第 34 篇 — AI 訓練基礎設施分析
Tesla 正在建造全球最雄心勃勃的自研 AI 訓練叢集之一。Dojo 是 Tesla 專門打造的超級電腦,代表著一個根本性的賭注:大規模擁有算力基礎設施,比向 Amazon、Google 或 Microsoft 租用它更便宜、更快速、戰略上也更具防禦性。本文詳細審視這個賭注:Dojo 是什麼、它與向主要雲端服務商租用 NVIDIA H100 或 B200 叢集相比如何、自建與外購的經濟學,以及 Dojo 對 Tesla FSD 和 Optimus 長期 AI 訓練成本結構的意涵。
第一節 — Dojo 架構概述
Dojo 是 Tesla 從零設計的訓練系統,並非任何現有廠商架構的衍生品。組成單元從晶片層級開始,逐步擴展為訓練磁磚(Tile)、ExaPOD,最終形成多 ExaPOD 叢集。
| 元件 | 規格 |
|---|---|
| 自研晶片 | D1(Dojo 1)— 台積電 7nm 製程,BF16 性能 50 TFLOPS,每晶片約 10 kW,記憶體頻寬 900 GB/s |
| 訓練磁磚 | 每磁磚 25 顆 D1 晶片;每磁磚約 2 PFLOPS |
| ExaPOD | 每 ExaPOD 120 個訓練磁磚;總計約 100 PFLOPS;容納於一個機櫃 |
| 目標叢集規模 | 多個 ExaPOD;Tesla 目標於 2025/2026 年底達約 1 EFLOP(exaFLOP)訓練容量(估) |
| 互聯技術 | D1 對 D1 自研高頻寬直連 — 避免傳統 GPU 叢集的 PCIe 頻寬瓶頸 |
| 主要用途 | 端到端 FSD 神經網路訓練;Optimus 機器人策略訓練。非推論用途(推論在車輛 FSD 晶片上執行) |
| 混合策略 | Tesla 同時向雲端服務商租用 NVIDIA A100/H100 叢集,用於突發訓練工作負載 |
為何互聯技術重要: 標準 GPU 叢集透過 PCIe 或 NVLink 進行晶片間通訊,造成頻寬瓶頸,限制訓練任務的並行化程度。Dojo 的 D1 對 D1 直連針對 Tesla 訓練工作負載的特定通訊模式設計——主要是 FSD 感知模型的大型影片資料批次。此架構以通用靈活性換取針對特定工作負載類型的優化吞吐量。
規模背景: 1 EFLOP(exaFLOP)代表每秒 10^18 次浮點運算。作為對比,美國政府的 Frontier 超級電腦——全球首台公開確認的 exascale 電腦——也是圍繞這一規模設計的。Tesla 正嘗試使用自研晶片而非現成硬體達到 exascale 訓練容量。
第二節 — 自建與外購的經濟學
Dojo 與雲端 NVIDIA 算力的財務比較並不簡單。結果在很大程度上取決於使用率、時間跨度以及納入哪些成本項目。以下所有數字均為基於公開資料和業界分析的估計值。
| 指標 | Tesla Dojo(自建) | 雲端 NVIDIA H100(外購) | 備注 |
|---|---|---|---|
| 每 ExaPOD 資本支出(估) | 3 億–5 億美元以上(估) | 無前期費用 | Dojo 需要大量資本投入;雲端將資本支出轉為營運支出 |
| 每 PFLOP-天營運成本(估) | 0.05–0.15 美元(估,規模化後) | 0.50–2.00 美元(雲端隨選/競價,估) | Dojo 成本優勢僅在高使用率下才能實現 |
| 損益平衡使用率(估) | 60–80%(估) | 不適用 | 低於此門檻時,雲端每單位算力更便宜 |
| 靈活性 | 低 — 固定架構,難以在代際中途升級 | 高 — 數天內即可租用最新 NVIDIA 晶片(B200/Blackwell) | |
| 獲得新硬體的速度 | 每晶片世代 3–5 年 | 數天 — 雲端在新 NVIDIA 晶片上市後即可提供 | |
| 資料安全性 | 高 — Tesla 訓練資料從不離開 Tesla 控制的基礎設施 | 中 — 雲端服務商提供合約保護,但資料在共享基礎設施上傳輸 | |
| 廠商風險 | Tesla 自主控制 — 訓練容量不依賴 NVIDIA 定價或供應 | 暴露於 NVIDIA 定價能力和硬體供應週期 | |
| 損益平衡點(估) | 重度使用 4–6 年(估) | 不適用 — 隨用隨付,無固定回收期 |
解讀這份經濟帳: 關鍵變數是使用率。在連續四年以上維持 80% 以上使用率的情況下,Dojo 的每 PFLOP 成本遠低於雲端費率。在 40% 以下的使用率時,每單位算力的攤提資本支出成本可能超過 Tesla 按需租用 H100 叢集的費用。這使得 Dojo 的經濟可行性與 Tesla 大規模產生訓練工作負載的能力密切相關——而這本身又與 FSD 推廣速度、Optimus 產量以及 Tesla 標記駕駛資料語料庫的持續增長掛鉤。
第三節 — 支持 Dojo 的戰略論據
Tesla 建造 Dojo 的理由超越了純粹的成本經濟學。四個戰略論點尤為有力。
1. 資料安全與智慧財產權保護
Tesla 的 FSD 訓練資料——來自全球 Tesla 車隊的數十億英里標記駕駛影片——是科技業最具競爭敏感性的專有資料集之一。透過雲端服務商傳輸這些資料,即使在合約 NDA 保護下,也會引入知識產權和競爭情報風險。完全在自有基礎設施上訓練消除了這個風險面。對於 AI 護城河本質上是資料護城河的公司而言,這絕非微不足道的考量。
2. 自訂晶片優化
NVIDIA GPU 設計為跨廣泛工作負載的通用加速器。Dojo 的 D1 晶片專門針對 Tesla 的訓練工作負載特性設計:高吞吐量影片資料攝入、相機輸入的端到端神經網路訓練,以及大規模資料並行訓練任務。針對特定工作負載類型優化的自訂晶片,在目標工作負載上可比通用加速器實現約 2–5 倍更優的每瓦性能(估)——儘管此優勢範圍較窄,不適用於預期用途之外的場景。
3. 廠商獨立性與供應安全
2023–2024 年的 NVIDIA H100 短缺,揭示了依賴單一廠商供應鏈來獲取關鍵 AI 基礎設施的風險。在短缺期間,H100 實例的雲端競價定價相比短缺前基線激增了 3–5 倍(估)。擁有事先採購協議的公司維持了算力獲取;沒有的則面臨訓練延遲。Dojo 為 Tesla 提供了保障性的算力容量,其擴展依賴 Tesla 自身的生產能力,而非 NVIDIA 的供應配額決策。
4. Optimus 資料飛輪鎖定
隨著 Optimus 從原型到大規模生產,它產生了全新類別的訓練資料:人形機器人互動資料、操作任務示範,以及策略回饋訊號。訓練日益強大的人形策略需要持續的規模化算力。若 Optimus 達到每年 5 萬部以上的部署量,資料生成速率和相關訓練算力需求可能超過當前 FSD 訓練的需求。擁有算力層意味著 Optimus 訓練成本是 Tesla 自身矽晶圓經濟學的函數,而非外部廠商定價結構的函數。
5. 潛在外部營收來源
Tesla 已公開提及向外部 AI 公司提供 Dojo 算力即服務的可能性。若 Dojo 達到 exaFLOP 規模,且 Tesla 自身使用率尚有餘裕,出售閒置容量訪問權代表了在算力稀缺持續的市場中的新營收來源。若 Dojo 使用率不足,這個選項沒有價值——但在高使用率伴隨溢出需求的情況下,它成為真實的商業機會。
第四節 — 反對 Dojo 的論點(空頭論述)
支持 Dojo 的戰略論點確實存在,但反論同樣值得認真對待。四個空頭論點值得重視。
1. 資本支出的機會成本
每一美元的 Dojo 資本支出(每 ExaPOD 估計 3 億–5 億美元以上)在短期內可替代性地提供 5–10 倍更多的 NVIDIA H100 或 B200 算力,因為雲端將資本支出轉為營運支出,而雲端服務商在硬體採購上實現了 Tesla 在可比較規模下無法匹敵的規模經濟。若訓練速度——單位時間內的迭代次數——比長期成本效率更重要,雲端可能以較高的每 PFLOP 成本產生更快的 FSD 改進。
2. 架構過時風險
Dojo D1 使用台積電 7nm 製程製造。NVIDIA 的 Blackwell B200 使用台積電 4nm 以上製程,在相關基準測試上比 H100 提升了約 5 倍性能。自訂加速器的晶片設計週期,從流片到量產通常需要 3–5 年。等到 Dojo D2 或下一代自訂晶片投入量產時,NVIDIA 可能已經推出了兩個以上的後續世代。風險在於,Dojo 投入數年的資本支出和研發費用,最終抵達的性能水平,可能是商業 GPU 市場已經超越的。
3. 軟體生態系統不成熟
NVIDIA 的 CUDA 生態系統擁有超過 15 年的函式庫開發、第三方框架支援和工程人才積累。PyTorch、TensorFlow、JAX 以及幾乎所有主要 ML 研究框架都以 CUDA 為主要執行後端。Dojo 需要 Tesla 自訂的軟體堆疊——專有編譯器、自訂函式庫和定制訓練框架。這造成人才招募劣勢(熟悉該堆疊的工程師較少)、工具劣勢(可用的開源優化較少)和除錯劣勢(可借鑒的社群知識較少)。這些問題在足夠的工程投入下可以解決,但它們代表了真實的摩擦成本。
4. 使用率風險
Dojo 的經濟案例依賴於多年回收期內持續的高使用率。兩種情境可能使使用率壓縮至損益平衡門檻以下:第一,若 FSD 訓練需求觸頂,因為模型達到了在大多數商業部署用例中「足夠好」的性能水平,訓練算力需求就不會以保持 Dojo 充分利用所需的速率增長。第二,若 Optimus 量產爬坡比預期緩慢,預期中人形策略訓練需求的激增將延後到來,在此期間 Dojo 處於低負載狀態。雲端算力在不需要時可以優雅地縮減至接近零;Dojo 則無法。
第五節 — Dojo 對 FSD 與 Optimus 時間線的意涵
對投資者和觀察者而言,實際問題不在於 Dojo 在理論上是否最優,而在於它是否真正改變了 Tesla 兩個最重要 AI 產品的時間線和成本結構。
| 里程碑 | Dojo 貢獻(估) | 無 Dojo(僅雲端) |
|---|---|---|
| FSD v14 到 v15 泛化躍升 | 能夠在無雲端成本限制下對完整標記資料集持續重新訓練(估) | 技術上可行,但在同等訓練規模下估計成本高出 2–3 倍(估) |
| Optimus 任務泛化(10 到 50 個任務) | Dojo 容量支援 Optimus 部署產生的大規模人形策略訓練 | 受限於所需訓練規模下雲端 H100 的可用性和每小時成本 |
| Optimus 5 萬台訓練支援 | 需要約 5–10 個 ExaPOD 的持續訓練容量(估) | 在同等算力下每年雲端成本估計超過 5 億美元(估) |
| Dojo 作為外部算力產品 | 若使用率允許且容量充裕,2027–2028 年為潛在窗口(估) | 不適用 — 雲端模式無法創造此營收選項 |
FSD 解讀: Dojo 對 FSD 最具體的近期利益,是消除訓練資料利用的成本上限。在雲端基礎設施上訓練時,算力成本是訓練時數的直接函數——這造成了財務壓力,促使限制訓練運行、縮減批次大小,或對訓練資料進行採樣而非在完整語料庫上訓練。在資本支出完全攤提的 Dojo 規模下,額外訓練算力的邊際成本趨近於零,可能實現更頻繁的模型迭代和對可用標記資料更充分的利用。
Optimus 解讀: 人形訓練的意涵更具推測性,但潛在規模可能更大。若 Optimus 以每年 5 萬–10 萬台的規模實現大規模量產,每台機器人都會持續產生必須納入策略更新的互動資料。所需訓練算力隨正在學習的任務數量和提供回饋資料的機器人數量而擴展。在那個規模下,雲端經濟學將變得真正令人望而卻步——這使得 Dojo 的固定成本結構成為以 Tesla 量產抱負所暗示的速率維持 Optimus 資料飛輪的唯一可行途徑。
第六節 — 關於本系列
本文是實體 AI 基準系列的第 34 篇。前幾篇文章涵蓋了發展指數、人形競賽、單位經濟學、全球競爭、高清地圖、車隊運營、軟體與 OTA、保險與責任、消費者需求、合作夥伴關係、競爭護城河、Cybercab 與 Model Y 對比、安全資料、Waymo Gen 6、Optimus 製造、記分卡快照、2030 年預測情境、投資者框架、Waymo 城市擴張路線圖、Tesla 州級審批地圖、AV 天氣與氣候限制、人才之戰、監管時間線、機器人計程車票價分析、AV 資料飛輪比較、人形機器人部署追蹤器、供應鏈分析、消費者採用需求指數,以及 Waymo 獨立估值與 IPO 分析。
本文增加了 AI 訓練基礎設施維度:Tesla 算力策略核心的自建與外購決策、Dojo 與雲端 NVIDIA 叢集的架構和經濟比較,以及未來三到五年 FSD 和 Optimus 訓練容量的意涵。
提示: 本文所有成本估計、性能數字和時間線預測均為基於公開資訊、分析師評論和技術演講的估計值。不構成投資建議。在做出任何投資決策前,請進行自身的盡職調查,並諮詢持牌財務顧問。
來源
- Tesla Dojo 超級電腦 — Tesla AI ↗
- Tesla Dojo D1 晶片架構 — Hot Chips 2021 Tesla 演講 ↗
- NVIDIA H100/B200 雲端定價 — AWS/GCP ↗
- AI 算力成本趨勢 — Epoch AI 研究 ↗