2026-06-17 — views
實體 AI 的運算力 — 驅動機器人量產的晶片全覽(2026 年中)
全面基準測試驅動自駕車與人形機器人的推論與訓練晶片——Jetson Thor、HW4、Dojo、EyeQ Ultra 等,涵蓋 2026 年中最新資訊。
運算層是實體 AI 時程的隱形瓶頸
機器人量產有一道矽基地板。自駕車需要在嚴格的功耗預算下即時融合雷達、光達和攝影機資料的車載推論晶片。人形機器人需要能在 70 公斤以內的機體中不插電運行基礎模型的邊緣處理器。訓練這些模型則需要能消化數 TB 機器人示範資料的大規模雲端或私有運算叢集。
Waymo、Tesla、Figure AI 或任何其他實體 AI 公司的所有時程預測,本質上都是對可用矽晶片的預測。本文對驅動這個領域的晶片進行基準測試——包括部署在車輛和機器人中的推論硬體,以及背後模型訓練所需的運算力。
關於 TOPS 的定義說明: Tera-Operations Per Second(TOPS)是以 INT8 精度衡量推論工作負載。訓練晶片使用不同指標(BF16 或 FP16 的 TFLOPS)。兩者不能直接比較——訓練和推論是截然不同的工作負載。以下表格將兩者分開呈現。
第一節 — 矽晶片基準總表
下表涵蓋截至 2026 年中與實體 AI 相關的主要推論晶片。所有 TOPS 數字均為 INT8,除非另有說明。功耗數字為典型工作功耗,除非特別說明為峰值 TDP。「商業狀態」表示一般商業可用性;部分晶片仍在配額制度或分階段推出中。
| 晶片 | 製造商 | TOPS (INT8) | 功耗 (W) | 記憶體/頻寬 | 主要應用 | 商業狀態 |
|---|---|---|---|---|---|---|
| Jetson Orin NX | NVIDIA | 100 | 10–25 | 16 GB LPDDR5,102 GB/s | 邊緣機器人、無人機、工業 | 一般可用 |
| Jetson Thor | NVIDIA | 800 | ~60 | 128 GB/s(估計) | 下一代人形機器人、進階機器人 | 分階段 / 配額中 |
| HW4(FSD 電腦) | Tesla | 1,000+(Tesla 宣稱) | ~50–80(每顆) | 客製 LPDDR5 | Tesla 車輛自動駕駛推論 | 量產中(Model S/X/3/Y/Cybertruck/Cybercab) |
| HW4 雙晶片 | Tesla | 2,000+(Tesla 宣稱) | ~100–160(合計) | 兩顆 HW4 並聯 | 高冗餘 Tesla 車型 | 量產中 |
| Dojo D1 晶片組 | Tesla | 不適用——訓練晶片 | ~350(每組) | 每組 900 GB/s | 神經網路訓練(非推論) | 僅用於訓練叢集 |
| Snapdragon Ride Elite | Qualcomm | 700+ | 未完整揭露 | 汽車級 ECC LPDDR5 | ADAS、L2+/L3 自駕 | 量產中(OEM 推出中) |
| EyeQ Ultra | Mobileye | 176 | ~10 | 整合式 LPDDR5 | L4 自動駕駛推論 | 2025 年起可用 |
| TPU v5e | 不適用——訓練晶片 | ~170(每顆) | HBM2e,每 Pod 1.6 TB/s | 雲端模型訓練(如 Waymo 神經網路) | 僅限 Google Cloud(非獨立販售) |
讀表說明: TOPS 數字因各製造商的測量方式不同而有很大差異——Tesla 的 1,000+ 宣稱使用 Tesla 內部基準方法,可能無法與 NVIDIA 公布的 INT8 數字直接比較。跨廠商 TOPS 比較應視為方向性參考,而非精確數值。功耗效率(TOPS/W)通常是移動和車輛應用更有意義的指標:HW4 約達 12–20 TOPS/W(估計),EyeQ Ultra 約 17 TOPS/W,Jetson Orin NX 依工作點不同約 4–10 TOPS/W。
Tesla Dojo D1: 每組 D1 晶片組在 BF16 精度下提供 362 TFLOPS。Tesla 的 ExaPOD 配置——3,000 組 D1 晶片組加交換矩陣——目標是 100 exaFLOPS 的總訓練運算力。這是一個訓練系統,不是推論晶片,不部署在車輛中。
第二節 — 誰用什麼:公司層級的運算堆疊
車輛或機器人中的推論晶片只是圖片的一半。訓練運算——用於建構模型的雲端或私有叢集——同樣關鍵。下表將主要實體 AI 公司對應到兩個層面。
| 公司 | 車載推論晶片 | 訓練運算 | 備註 |
|---|---|---|---|
| Waymo | 客製 ASIC(Waymo Driver 晶片,第 5 代) | Google Cloud TPU v4/v5 叢集 | 車載晶片細節有限;Google Cloud 關係提供訓練規模 |
| Tesla | HW4(單顆或雙顆) | Dojo + NVIDIA H100 叢集(過渡中) | 積極垂直整合——正將訓練遷移至 Dojo;HW4 為自研 |
| Figure AI | NVIDIA Jetson Thor | NVIDIA DGX / H100 叢集 | 基礎模型在板外訓練;Thor 處理車載推論 |
| Agility Robotics(Digit) | Intel / NVIDIA 邊緣運算(混合) | AWS 雲端運算 | Amazon 母公司提供 AWS 基礎設施;車載晶片細節有限 |
| 1X Technologies | NVIDIA Jetson Thor 平台 | NVIDIA DGX 架構 | OpenAI 合作夥伴關係影響模型訓練堆疊 |
| Boston Dynamics(Atlas) | 客製致動器運算 + NVIDIA Isaac 平台 | NVIDIA Isaac Sim / 雲端訓練 | Isaac 平台用於模擬到真實的遷移 |
| Apptronik(Apollo) | 基於 NVIDIA 的邊緣運算 | AWS / NVIDIA(估計) | Google/Samsung 投資;訓練堆疊未完整揭露 |
此表揭示的訊息: Tesla 和 Waymo 在推論和訓練兩端都已垂直整合或深度合作。人形機器人新創群——Figure、1X、Apptronik——在推論上集中於 NVIDIA Jetson Thor,在訓練上集中於 NVIDIA DGX 基礎設施。這造成了第五節討論的單一供應商依賴風險。
第三節 — Tesla 的垂直整合優勢
Tesla 在運算層中佔據與其他所有實體 AI 公司截然不同的結構性地位。它同時設計部署在車輛中的推論晶片(HW4)和用於建構模型的訓練矽晶片(Dojo D1)。沒有任何其他實體 AI 公司能同時掌控這個堆疊的兩端。
垂直整合為 Tesla 帶來什麼
不受 NVIDIA 出口限制影響的訓練流程。 Dojo D1 晶片組以美國本土工具鏈和供應鏈設計製造。當美國政府限制 NVIDIA H100 和 A100 晶片出口至特定市場時,Tesla 建構在 Dojo 上的訓練流程不受影響。隨著出口管制持續演變,這是一個隨時間複利增長的戰略不對稱性。
車輛規模下的每 TOPS 成本。 HW4 作為 Tesla 車輛生產線的一部分製造並整合。推論運算的成本在車輛硬體利潤率中攤提。以第三方組件購買 Mobileye EyeQ Ultra 或 Qualcomm Snapdragon Ride Elite 會增加供應商利潤層並形成採購依賴。Tesla 透過自研和整合消除了這兩個問題。
訓練運算:Dojo vs. NVIDIA H100 叢集比較。 Tesla 的 ExaPOD 目標是在 3,000 組 D1 晶片組上達到 100 exaFLOPS 的 BF16 訓練運算力。一個達到 100 exaFLOPS 的可比 NVIDIA H100 叢集需要約 3,100 顆 H100 GPU(每顆在 SXM5 峰值下約提供 32 TFLOPS BF16)。以資料中心定價(估計),該規模的 H100 叢集代表數億美元的硬體加上電力和冷卻基礎設施。Tesla 的 Dojo 設計旨在以更低的總體擁有成本提供同等規模——雖然這項成本主張的外部驗證尚未公開。
取捨: 垂直整合帶有工程風險。Dojo 開發花費的時間比最初公開時程更長,Tesla 在過渡期間繼續使用 NVIDIA H100 叢集進行訓練。截至 2026 年中,完全轉移到以 Dojo 作為主要訓練是一個既定目標,而非已完成的轉型。
第四節 — Waymo 的運算堆疊
Waymo 的方式在一個重要方面與 Tesla 相反:它不設計自己的晶片,但透過母公司 Alphabet/Google 深度整合了業界最強大的訓練基礎設施。
車載推論:Waymo Driver 晶片
Waymo 為車載推論開發了客製 ASIC——第五代 Waymo Driver 晶片。這款晶片的詳細規格未公開,這與 Waymo 保護技術差異化的做法一致。從 Waymo 公開通訊中可知:
- 該晶片即時處理 Waymo One 感測器套件的感測器融合:攝影機、光達、雷達
- 它在車載執行感知、預測和規劃堆疊,實現完全無人駕駛運行
- 每一代晶片相比上一代在功耗效率和處理吞吐量上都有所提升
Waymo 不出售或授權其推論晶片。它是為 Waymo One 車輛專門製造的,不是通用汽車晶片。
訓練:Google Cloud TPU 的規模優勢
Waymo 在 Google Cloud TPU v4 和 v5 基礎設施上訓練其神經網路。Google Cloud 的 TPU Pod 配置可達 exaFLOP 規模運算力。這使 Waymo 能以反映 Google 母公司關係而非市場價格的成本結構,獲得可與任何人形機器人新創透過 NVIDIA 雲端實例所能提供的相媲美或超越的訓練運算力。
結構性含義: Waymo 的訓練規模優勢不是新創公司透過再融一輪可以複製的。以成本價獲取 Google TPU 基礎設施是一個結構性護城河。Waymo 的限制不是運算力——而是資料多樣性(在更多城市、條件和邊緣案例中的駕駛里程)和車輛製造規模。
第五節 — NVIDIA 對人形機器人新創的瓶頸
人形機器人新創集中於單一推論平台——NVIDIA Jetson Thor——造成了一個在人形機器人量產討論中不被廣泛提及的供應集中風險。
Thor 為何成為預設選擇
Jetson Thor 在商業可用的人形機器人規模邊緣運算模組中提供最高的 TOPS/W 比率。以 800 TOPS 和約 60W,它使大型視覺-語言-動作模型的車載推論無需外部運算連線即可實現。NVIDIA 的 Isaac 機器人平台——模擬、訓練流程和部署工具——與 Jetson 硬體原生整合。對於想要快速推進而不需自建晶片團隊的新創公司,Thor 加 Isaac 是理性的選擇。
配額問題
NVIDIA Jetson Thor 是一個高複雜度的系統級模組,與資料中心 GPU 需求競爭 NVIDIA 的內部工程和製造產能。截至 2026 年中,Jetson Thor 據報處於配額狀態——即人形機器人製造商的需求超過立即可用的供應。這與新款 Jetson 模組的標準產品生命週期一致:初期產量有限,配額優先順序由 NVIDIA 管理。
這對量產時程意味著什麼
對於 Figure AI、1X Technologies 和 Apptronik 等依賴 Jetson Thor 作為車載運算的公司——機器人硬體量產在一定程度上受制於 NVIDIA 的產能配額決策。一家公司可以設計最好的人形機器人外框、訓練最好的基礎模型、簽署最好的客戶合約,但如果 Thor 模組需要 6–12 個月的交貨期,實際生產速率就受矽晶片限制,而非工程能力。
Tesla 和 Waymo 不受此限制。 Tesla 使用 HW4,其自研晶片。Waymo 使用其客製 ASIC。兩者都不依賴 NVIDIA 進行車載推論。這個限制完全落在選擇了使用商業 NVIDIA 硬體快速通道而非投資客製晶片的人形機器人新創身上——這是早期階段合理的取捨,但在量產規模上成為瓶頸。
長期解決方案: 達到有意義量產規模的人形機器人將面臨晶片自製或外購的決策。進入 C 輪及之後的公司將有資本探索客製 ASIC 開發(一個 3–5 年的計畫),或與 NVIDIA 談判優先配額協議。兩者都不是短期解決方案。在 2026–2028 年期間,NVIDIA Thor 配額上限是人形機器人產業能多快擴展的真實限制。
基準背景:這是實體 AI 系列的第五篇文章
本追蹤報告是從多個角度覆蓋實體 AI 系列的第五篇:
- 運營量產指標 — 產量、部署規模、行駛里程
- 人形機器人技術 — 硬體世代、靈巧性基準、基礎模型能力
- 自駕車安全與法規 — 加州 DMV 資料、NHTSA 事故報告、州許可地圖
- 投資與估值 — 資金流向、融資輪、隱含估值
- 運算與矽晶片 — 本文
運算層位於前四篇文章所有主題的底層。運營量產(第一篇)在一定程度上取決於可用的推論晶片數量。人形機器人技術基準(第二篇)取決於什麼模型可以在車載即時運行。投資圖景(第四篇)最終將由哪些公司掌控自己的晶片堆疊、哪些公司依賴第三方配額所決定。矽晶片不是實體 AI 最顯眼的層面——但它是最基礎的一層。
來源
- NVIDIA Jetson Thor 發布公告 — NVIDIA 開發者部落格 ↗
- Tesla HW4 FSD 電腦 — Tesla AI Day ↗
- Tesla Dojo 超級電腦 — Tesla 投資人日 ↗
- Mobileye EyeQ Ultra — Mobileye 新聞室 ↗
- Qualcomm Snapdragon Ride Elite — Qualcomm 汽車產品 ↗