2026-06-18 — views

Tesla Dojo 超级计算机 — 自研 AI 芯片与 FSD 背后的算力扩展论点

Tesla 自研 Dojo D1 芯片是 FSD 与 Optimus 训练的算力核心 — 押注更快的训练吞吐量能持续复利带来更好的自动驾驶。

Physical AI 基准测试系列第 111 篇 — Tesla Dojo 超级计算机深度解析：自研 AI 训练芯片、FSD 背后的算力扩展论点，以及训练吞吐量如何决定自动驾驶进步速度

训练算力是自动驾驶竞赛中隐藏的关键变量。所有人都在关注脱离率、Robotaxi 发布与安全报告——这些都是竞赛的可见输出。但支撑这些输出的引擎是训练算力：一家公司能处理多少数据、能以多快的速度运行实验，以及能以多快的速度迭代实际驱动汽车的神经网络策略。Tesla 的 Dojo 超级计算机是公司的押注：这个变量如此关键，值得从头打造自研芯片，而非向 NVIDIA 租用 GPU 或使用 Google 的 TPU。

这与 AV 领域所有其他公司的战略立场截然不同。Waymo 使用 Google TPU 和 NVIDIA GPU 集群——为通用 AI 工作负载设计的芯片，向既有供应商租用或购买。Tesla 则认为 FSD 训练工作负载足够特殊，且拥有训练算力堆栈的竞争优势足够巨大，值得构建专门针对视频训练优化的自研芯片，不论成本、工程复杂度与多年时间轴如何。

第一节 — 为何训练算力对 FSD 至关重要

训练算力与 FSD 性能之间的联系，表面上并不直观。FSD 运行于每辆 Tesla 车内的芯片——HW4 车载计算机——该芯片执行所有实时推理以驾驶汽车。Dojo 不在车上，Dojo 在数据中心。但 Dojo 的工作——训练最终部署到 HW4 的神经网络权重——决定了每个 FSD 版本的质量上限。

原则	说明	FSD 含义
扩展定律	神经网络性能随更多算力、更多数据与更大模型可预测地提升（Chinchilla 扩展定律；OpenAI 扩展论文）	若 FSD 遵循扩展定律，更多训练算力 = 更好的驾驶策略——与 LLM 因更多算力而更聪明的原理相同
视频需要庞大算力	对原始摄像头视频（依 Tesla 披露规格：1280x960 x 8 个摄像头 x 36Hz）进行训练产生海量数据；视频 token 处理代价昂贵	FSD v12+ 是端到端在视频上训练的；训练一次模型迭代需要处理数十亿帧
迭代速度	更快的训练算力 = 单位时间内更多实验 = 更快的改进周期	能进行 10 倍实验的团队能更快找到更好的模型架构
数据飞轮 x 算力飞轮	Tesla 的数据优势（600 万+ 辆车）只有在算力能跟上数据摄入速率时才能复利	没有足够算力，数据飞轮就会放缓——收集的数据闲置未处理
推理 vs 训练	Dojo 用于训练（寻找模型权重）；每辆 Tesla 车辆使用车载 HW4 芯片进行推理（实时运行模型）	两个独立的算力问题：Dojo（大规模、集中式训练）vs HW4（高效、分布式推理）

扩展定律论点是 Dojo 论点的核心。这在 LLM 领域已有实证：GPT-4 优于 GPT-3 不是因为 OpenAI 找到了截然不同的架构，而是因为他们用更多算力在更多数据上训练了更大的模型。Tesla 的问题是相同定律是否适用于自动驾驶——更多视频数据上的更多训练算力是否能可靠地产生更好的驾驶策略。Tesla 领导层已明确表达这一信念，而 FSD v12 的端到端架构正是其实现。

第二节 — Dojo D1 芯片架构

Dojo D1 芯片是 Tesla 自研芯片战略的原子。Tesla 在 2022 年 AI Day 上披露了关键规格。理解架构需要理解 Tesla 为何而优化：不是通用 AI 计算，而是专门针对视频训练工作负载。

规格	数值	背景
制程节点	TSMC 7nm	与部分 NVIDIA A100 生产批次相同节点；非最新节点，但针对成本/密度优化
每芯片算力	~362 TFLOPS BF16（已披露）	与 NVIDIA A100（312 TFLOPS BF16）相当；D1 针对带宽效率优化
片上内存	50MB SRAM（已披露）	比 GPU 设计大得多的 SRAM；降低视频训练的内存带宽瓶颈
内存带宽	训练瓦片内芯片间互连 ~10 TB/s（已披露）	关键差异化：D1 芯片在瓦片内以极高带宽相互连接；消除了 NVLink 等效瓶颈
瓦片结构	每个训练瓦片 25 颗 D1 芯片；每个 ExaPOD 120 个训练瓦片（已披露）	ExaPOD：3,000 颗 D1 芯片，~1.1 ExaFLOP BF16 算力
ExaPOD 规格	~1.1 ExaFLOP BF16（已披露目标）	一个 ExaPOD = ~1 ExaFLOP；生产中多个 ExaPOD（估计）
核心设计哲学	消除 CPU-GPU 内存层级瓶颈；D1 是统一计算结构，芯片以极高带宽点对点通信	传统 GPU 训练受限于 CPU→GPU 数据传输和 NVLink 带宽；D1 为视频工作负载绕过此限制

50MB 片上 SRAM 数字值得特别关注。标准 GPU 架构使用 DRAM 作为主要内存池——对通用 AI 工作负载而言足够快，但在训练需要相邻帧一起处理的大型视频片段时存在根本带宽上限。D1 更大的片上 SRAM 使更多数据更接近计算单元，减少昂贵的片外内存访问频率。

ExaPOD 是可部署的单位：每个瓦片 25 颗 D1 芯片，每个 ExaPOD 120 个瓦片，共 3,000 颗 D1 芯片，每个 ExaPOD 约 1.1 ExaFLOP BF16 算力。作为参考，ExaFLOP 是每秒 10^18 次浮点运算——这在 2022 年之前还是国家超级计算设施的领域。

第三节 — Dojo vs NVIDIA GPU 集群比较

支持 Dojo 的理由并不是 D1 在绝对指标上优于 H100。NVIDIA 的 H100 是一款出色的芯片，拥有成熟的软件生态系统和广泛的适用性。支持 Dojo 的理由是：拥有垂直整合的训练堆栈——芯片、软件、训练流程，全部针对一个工作负载优化——产生的战略优势是租用 H100 无法复制的，即使每 FLOP 计算规格相当。

维度	Tesla Dojo（D1 / ExaPOD）	NVIDIA H100/H200 集群
硬件所有权	自研芯片；Tesla 拥有完整堆栈（芯片→软件→训练流程）	第三方；按 GPU 付费或购买硬件；NVIDIA 控制路线图
视频训练效率	专门针对视频优化（大 SRAM、高芯片间带宽）；对 FSD 工作负载有优势（估计）	通用目的；擅长 Transformer 训练；视频训练可行但非专门优化
软件堆栈	Tesla 专有；无 CUDA 兼容性；需要自定义 ML 框架	CUDA 生态系统；PyTorch / JAX / TF 均有优化 CUDA 后端；庞大工具链
资本成本	前期成本极高（构建自研芯片封装、基础设施）	租用或购买；OpEx 友好；H100 ~$30K-$40K/颗（估计）
灵活性	Dojo 针对 Tesla 特定工作负载优化；难以改作其他用途	H100 集群可运行任何工作负载；可改作其他用途
规模上限	受 Tesla 自身建设速度限制；ExaPOD 生产速率	NVIDIA 在当前需求水平下可供应基本上无限量的 H100（估计）
供应商风险	Tesla 控制供应；无供应商依赖	受 NVIDIA 定价、分配优先级、出口管制影响
当前容量	多个 ExaPOD 已运行；确切容量未披露；Tesla 已表示 Dojo 正在生产训练使用（估计）	Waymo 使用 Google TPU（Alphabet 内部）+ NVIDIA GPU（估计）

软件堆栈问题是这一比较中最被低估的要素。CUDA 有三十年的先发优势。每个主要 ML 框架都有由专家团队维护的优化 CUDA 后端。Tesla 决定打造与 CUDA 不兼容的自研芯片，意味着要建立和维护一个平行软件堆栈，吸引愿意在 CUDA 生态系统之外工作的工程师，并从头实现每一个训练优化，而不是从 PyTorch 社区继承它们。这是一个不会出现在芯片规格中的巨大软件成本。

第四节 — HW4：边缘端推理

Dojo 训练模型。HW4 运行模型。两个算力问题被部署流程分隔：训练产生模型权重，权重被压缩并为推理优化，然后通过 OTA 更新推送到车辆。HW4 在汽车行驶时实时执行模型。

规格	HW4（Tesla 当前车载芯片）	HW3（前代）
TOPS（每秒万亿次运算）	~720 TOPS（已披露）	144 TOPS
提升幅度	相比 HW3 约 5 倍	—
制程节点	TSMC 4nm（估计）	三星 14nm
支持摄像头	最多 8 个全分辨率摄像头	8 个摄像头（相同）
网络带宽	以太网传感器网络（vs 旧设计的 CAN bus）	CAN bus
FSD 版本	HW4 为 FSD v12+ 端到端所需（估计）；HW3 运行旧版 FSD	运行 FSD 至 v11（估计）
HW4 车队普及率	2023 年起所有新 Tesla 车辆均配备 HW4；HW3 车队仍庞大（估计）	HW3 车辆是升级挑战——需要硬件改装才能获得完整 FSD v12+ 效益
成本	未单独披露；为车辆制造成本的一部分	—

HW3 到 HW4 的转换揭示了 AV 行业中的结构性挑战：车载推理硬件决定了车辆能运行哪些 FSD 版本。HW3 车辆无法以全能力运行 FSD v12+，因为模型比 HW3 能以实时帧率执行的规模更大（估计）。这意味着整个 HW3 车队——每辆 2023 年前出售的 Tesla——无论 Dojo 驱动的训练改进多少，都在运行较旧、能力较弱的 FSD 版本。

第五节 — Dojo 作为基准测试信号

对于 Physical AI 基准测试系列而言，Dojo 不仅仅是一颗芯片——它是一组可观察的信号，揭示 Tesla 的算力扩展论点是否在发挥作用。

信号	观察指标	重要原因
ExaPOD 数量	有多少 ExaPOD 正在运行并训练 FSD	可用训练算力的直接代理；更多 ExaPOD = 更快的模型迭代
训练运行频率	Tesla 多频繁推出新 FSD 版本	FSD 更新节奏（每周/月/季）反映训练吞吐量
脱离率趋势	每千英里关键脱离率的时间趋势	若 Dojo 扩展定律论点正确，脱离率应随算力扩展持续下降
Dojo vs 云端成本	Dojo 是否比租用 NVIDIA H100 提供更好的每 FLOP 成本	若 Dojo 在规模上比云端更贵，自研芯片押注在经济上失败
HW4 车队普及率	Tesla FSD 车队中 HW4 的比例	HW4 车辆获得最强大的 FSD；HW3 车辆在推理端受算力限制
Optimus 训练整合	Dojo 是否也在训练 Optimus 策略（通用机器人）	若 Dojo 同时训练 FSD 和 Optimus，算力分配成为战略变量

最具可行性的信号是 FSD 更新节奏。若 Dojo 正在以 Tesla 宣称的规模产生训练吞吐量，FSD 模型更新的频率应当是可测量的。每周更新表明训练流程正常运作且吞吐量高；每季更新则表明训练流程是瓶颈，或部署周期受算力以外的因素限制。

第六节 — 战略背景：Dojo 对 AV 竞争格局的意义

Dojo 投资不能孤立评估。它是一个战略选择，揭示了 Tesla 相对于竞争对手如何看待 AV 竞赛——而这种思考对 physical AI 领域的每家公司都有影响。

根本押注是：自动驾驶更多是训练算力问题，而非数据收集问题、传感器问题或地图问题。Waymo 拥有出色的地图、出色的传感器融合，以及访问 Google 算力资源的能力。但 Waymo 的训练循环更慢，因为其数据收集规模（数百辆车对比数百万辆）从根本上更小。若训练算力和数据量是 FSD 质量的主要决定因素，Waymo 的传感器优势不足以填补差距。

Tesla 的替代假设——纯摄像头感知若在足够数据上用足够算力训练即可用于 AV——是这一信念的架构表达。若纯摄像头、算力扩展训练产生的驾驶策略优于在更少数据上训练的雷达辅助系统，Dojo 投资即得到验证。

第七节 — 2026 年及以后的观察重点

将揭示 Dojo 是否兑现其论点的可观察信号正在积累。Physical AI 基准测试系列将持续跟踪这些信号。

信号	时间	揭示内容
ExaPOD 数量披露	季度财报背景（Tesla IR）	Tesla 是否在以论点所需速度扩展 Dojo 容量
FSD v12+ 月度发布率	持续	训练吞吐量代理；更频繁的发布 = 单位时间更多 Dojo 训练周期
HW4 车队比例	车辆交付报告（季度）	多少比例的 FSD 订阅者能实际运行最新端到端模型
脱离率轨迹	加州 DMV 年度报告（估计年末）+ Tesla 自愿数据	最终验证或反驳扩展定律论点的滞后指标
Dojo ExaFLOP 容量	Tesla AI/产品活动（估计）	总 Dojo 训练容量；与 Alphabet 和 Waymo 算力披露比较
Optimus 策略训练确认	Tesla 活动；财报电话会议	Dojo 算力是否在 FSD 和 Optimus 之间分配，以及如何分配
NVIDIA 敞口减少	Tesla 资本支出披露	Dojo 是否真正取代 NVIDIA GPU 租用还是仅作补充

Dojo 实验正在规模化运行，使用真实车辆，在真实交通中，产生可观察的输出。这使其成为自动驾驶历史上最具信息量的实验之一。

注意： 标记「（估计）」的数字是基于 2026 年中期公开可用信息的方向性估计。Tesla 未完整公开披露 Dojo 容量、ExaPOD 数量及训练算力详情。本文不构成投资建议。