2026-06-18 — views

實體 AI 運算架構 — 邊緣 vs 雲端：Tesla FSD 晶片、Waymo 客製 ASIC 與 Dojo 超級電腦

邊緣推論 vs 雲端訓練：Tesla FSD 晶片、Waymo 客製 ASIC 與 Dojo 如何分工，掌控自駕車的完整運算堆疊。

實體 AI 基準測試系列第 57 篇 — 完整運算堆疊

每當一輛啟用 FSD 的 Tesla 偵測到行人從路緣踏出，支撐那項偵測的運算完全在車上完成——在一顆固定於儀表板後方的客製晶片裡，消耗約 100 瓦，完全不連接 Tesla 的伺服器。然而，載入那顆晶片的神經網路權重，是透過 Tesla 雲端基礎設施數千個 GPU 年的算力訓練而來。問題的兩半——推論與訓練——需要根本上不同的運算架構，而每家自駕車公司在這兩端的選擇，將決定接下來十年的競爭格局。

本文完整描繪運算堆疊的全貌：車載邊緣運算的現實、雲端的運作方式，以及各公司為勝出而打造的客製矽晶片。

第一節 — 為何邊緣運算對自駕車不可或缺

任何自動駕駛車輛的基本架構，都由一個無法迴避的物理約束決定：必須在毫秒內完成的決策，無法等待數百公里外的伺服器。

約束條件	說明
延遲需求	自駕車必須在 100 毫秒總循環內完成感知、規劃與執行（估計值）；光是雲端來回就增加 20–100 毫秒的網路延遲——對安全關鍵決策而言完全不可接受
連線可靠性	4G/5G 網路存在盲點、壅塞與中斷；需要連網才能安全行駛的自駕車，無法在商業規模下部署
資料頻寬	8 顆攝影機加 LIDAR 加雷達每小時產生 1–2 TB 原始感測器資料（估計值）；以目前任何無線標準都無法將這些資料即時串流至雲端
法規要求	大多數自駕車安全框架要求車載失效-安全作業能力——車輛必須能在沒有任何外部連線的情況下自行停至安全狀態

這些約束產生了一個所有認真的自駕車工程團隊都遵循的原則：推論在邊緣執行；訓練在雲端執行。 車輛在本地執行雲端訓練的模型，將邊緣案例的精選片段上傳至雲端以供再訓練，並定期透過 OTA 接收模型更新。智能存在於權重之中，權重來自雲端訓練管線，但將那些權重應用於每一幀攝影機影像的運算——在車載專用晶片上執行，比任何人類眨眼都快。

因此架構問題不在於是否使用邊緣運算——每輛自駕車都必須如此——而在於要打造或購買哪種邊緣晶片，以及如何設計餵養它的雲端訓練基礎設施。

第二節 — Tesla 的邊緣運算：FSD 晶片

Tesla 在 2016 年決定自行設計神經處理硬體而非仰賴供應商，下了汽車產業中最關鍵的邊緣矽晶片賭注。成果是 Tesla FSD 電腦——一個專用加速器，在每輛啟用功能的 Tesla 上執行所有 FSD 推論任務。

元件	說明
晶片名稱	Tesla FSD 電腦（HW3：2019 年，HW4：2023 年）
架構	由 Tesla 內部矽晶片團隊設計的客製神經處理單元（NPU），由前蘋果晶片團隊成員 Pete Bannon 主導
HW4 規格	雙晶片設計；每顆晶片內建 12 個 ARM Cortex-A77 核心、2 個 NPU 與 GPU；每顆晶片約 100 TOPS，合計約 200 TOPS（估計值）
功耗	FSD 電腦系統整體約 100W（估計值）
冗餘設計	雙晶片設計提供硬體冗餘；失效-安全架構意味著一顆晶片故障時，另一顆可維持運作
記憶體	HBM2（高頻寬記憶體），供推論期間快速存取神經網路權重
執行內容	所有 FSD 推論：攝影機處理、佔用網路、神經規劃器、速度控制器——完整端對端管線
OTA 更新	透過 Tesla 行動網路 OTA 更新模型權重；每個新版 FSD 軟體都會將更新的神經網路權重推送至晶片
HW5（估計值）	下一代晶片預計推出；TOPS 可能大幅提升，以支援 FSD v14 及後續版本

自行設計晶片的策略邏輯與蘋果應用於 M 系列的邏輯相同：當你擁有神經網路拓撲，你就能共同優化晶片架構，加速你的網路所需的精確矩陣運算。來自 NVIDIA 或 Qualcomm 的通用 GPU 設計成能高效執行任何人的神經網路。Tesla 的 NPU 設計成盡可能高效地執行 Tesla 的特定神經網路。這種特殊性轉化為在特定任務上更好的每瓦效能——在功耗受限且熱管理影響乘客舒適度的車輛中，這一點極為重要。

第三節 — Waymo 的邊緣運算：客製 ASIC 加 Orin

Waymo 的車載運算問題在結構上比 Tesla 更為複雜。Tesla 的感測器套件只有攝影機——沒有 LIDAR，沒有雷達。Waymo 的感測器套件結合了 LIDAR、攝影機與雷達，每種都以高頻率產生不同類型的資料，所有資料都必須即時處理、融合與解讀。結果是一個更複雜的車載運算堆疊，消耗更多電力，佔用更多空間。

元件	說明
主要推論晶片	Waymo 為感測器處理設計了客製 ASIC；以 10–20 Hz 執行的 LIDAR 點雲處理需要專用硬體；NVIDIA Orin SoC 用於一般神經網路推論（估計值）
LIDAR 處理	高頻率 360 度 LIDAR 點雲需要專用運算進行點雲分割與物件偵測；此工作負載無法有效映射至通用 GPU 架構
感測器融合	即時融合 LIDAR、攝影機與雷達資料流，運算密度遠高於單純攝影機處理；融合步驟必須在神經網路規劃器運作前完成
HD 地圖定位	將即時 LIDAR 點雲與儲存的 HD 地圖即時比對，需要感知管線以外的額外專用運算
車載總運算量	遠高於 Tesla（估計值），原因是 LIDAR 與雷達的處理需求；Waymo 未公開 TOPS 數字
功耗	高於 Tesla（估計值），原因是 LIDAR 硬體加雷達硬體加額外運算；熱管理是公認的工程挑戰
第六代車輛	Waymo 專用第六代車輛從零開始整合感測器與運算硬體，減少了早期世代的改裝開銷

第四節 — 雲端訓練：Dojo vs Google TPU

邊緣運算決定車輛今天能做什麼。雲端訓練基礎設施決定車輛明天改善的速度。

	Tesla Dojo	Waymo（Google TPU）
訓練硬體	客製 Dojo D1 晶片加 ExaPOD 叢集；每顆 D1 晶片 BF16 精度約 50 TFLOPS，記憶體頻寬 10 TB/s	Google TPU v4/v5 Pod；Waymo 是 Alphabet 子公司，可存取 Google 完整 TPU 叢集
叢集規模	Tesla 目標約 1 ExaFLOP AI 訓練算力（估計值，2025 年底）；Dojo 2 已宣布進一步擴展	Google TPU 叢集是世界最大 AI 訓練叢集之一；Waymo 可按需無限存取（估計值）
訓練資料管線	約 600 萬輛具備 FSD 能力的 Tesla 車輛透過影子模式產生片段；被網路標記為邊緣案例的片段優先上傳並標注	專用測繪車輛加約 1,500 輛機器人計程車；資料集規模較小，但完全無人駕駛里程比例更高
訓練目標	模仿人類駕駛影片的學習（FSD v12+）：最小化神經網路輸出與人類駕駛行為之間的差異	跨物件偵測、佔用預測、軌跡預測與行為預測的多任務訓練（估計值）
關鍵優勢	端對端掌控訓練管線；迭代更快；無雲端供應商依賴	按需擴展至 Google 完整 TPU 算力；無訓練硬體資本支出
關鍵風險	客製矽晶片是集中押注；若 Dojo 表現低於 NVIDIA 替代方案，訓練吞吐量將落後	無硬體風險；Google TPU 已在規模下驗證；風險在於相對 Tesla 的資料量

第五節 — 車隊資料循環：訓練與部署如何連結

運算架構——邊緣推論晶片、雲端訓練叢集——服務於一個決定每個系統改善速度的資料飛輪。

車隊車輛執行邊緣推論
    → 精選有趣片段上傳至雲端
    → 雲端以新資料訓練（Dojo / Google TPU）
    → 產出改善的模型權重
    → OTA 更新推送至車隊
    → 車隊表現改善
    → 更好的資料片段 → 更有效的下一輪訓練

飛輪元件	Tesla	Waymo
資料量	約 600 萬輛 FSD 能力車輛；每週數千萬車隊里程	約 1,500 輛車輛；每週 15 萬次以上無人駕駛搭乘
資料品質	主要是有監督里程（人類駕駛在場）；人類介入標記真實邊緣案例	完全無人駕駛里程；沒有人類駕駛可以接管——每個決策都是系統自主生成
上傳頻寬	行動網路連線；選擇性上傳被車載網路標記為異常的片段	從已知車庫與停車場專用上傳（估計值）
訓練吞吐量	Dojo 隨資本投資擴展；Tesla 掌控速度	Google TPU 按需擴展；Waymo 無需新硬體即可激增算力
部署延遲	新模型發布後數日內 OTA 至約 600 萬輛車輛	數小時內 OTA 至約 1,500 輛車輛

這個飛輪的不對稱性，是自駕車產業的核心策略張力。Tesla 擁有巨大的資料量優勢——600 萬輛車輛對比 1,500 輛。但 Waymo 擁有資料品質優勢：其資料集中的每一英里都是在沒有人類準備接管的情況下行駛，意味著系統自身的決策（包括錯誤）都完整呈現。資料量還是資料品質更重要，目前尚無實證定論——答案將由數十億英里的安全記錄揭示。

資料來源：Tesla FSD 電腦與 Dojo 規格——tesla.com/AI（Tesla AI Day 2022、2023）；NVIDIA Orin SoC 車用規格——nvidia.com/en-us/self-driving-cars/drive-orin/；Google Cloud TPU 文件——cloud.google.com/tpu；Waymo 技術總覽——waymo.com/waymo-driver/。標注「估計值」的數字均源自公開公司資料、產業報導與分析師研究，未經獨立驗證，應視為方向性參考。本文不構成投資建議。