2026-06-18 — views

Tesla Dojo vs. 云端算力 — FSD 与 Optimus 训练背后的自建与外购决策

Tesla 自研 Dojo 集群与租用 H100/B200 云端算力的架构、经济模型与战略意涵全面比较分析。

实体 AI 基准系列第 34 篇 — AI 训练基础设施分析

Tesla 正在建造全球最雄心勃勃的自研 AI 训练集群之一。Dojo 是 Tesla 专门打造的超级计算机，代表着一个根本性的赌注：大规模拥有算力基础设施，比向 Amazon、Google 或 Microsoft 租用它更便宜、更快速、战略上也更具防御性。本文详细审视这个赌注：Dojo 是什么、它与向主要云服务商租用 NVIDIA H100 或 B200 集群相比如何、自建与外购的经济学，以及 Dojo 对 Tesla FSD 和 Optimus 长期 AI 训练成本结构的意涵。

第一节 — Dojo 架构概述

Dojo 是 Tesla 从零设计的训练系统，并非任何现有厂商架构的衍生品。组成单元从芯片层级开始，逐步扩展为训练磁贴（Tile）、ExaPOD，最终形成多 ExaPOD 集群。

组件	规格
自研芯片	D1（Dojo 1）— 台积电 7nm 制程，BF16 性能 50 TFLOPS，每芯片约 10 kW，内存带宽 900 GB/s
训练磁贴	每磁贴 25 颗 D1 芯片；每磁贴约 2 PFLOPS
ExaPOD	每 ExaPOD 120 个训练磁贴；总计约 100 PFLOPS；容纳于一个机柜
目标集群规模	多个 ExaPOD；Tesla 目标于 2025/2026 年底达约 1 EFLOP（exaFLOP）训练容量（估）
互联技术	D1 对 D1 自研高带宽直连 — 避免传统 GPU 集群的 PCIe 带宽瓶颈
主要用途	端到端 FSD 神经网络训练；Optimus 机器人策略训练。非推理用途（推理在车辆 FSD 芯片上执行）
混合策略	Tesla 同时向云服务商租用 NVIDIA A100/H100 集群，用于突发训练工作负载

为何互联技术重要： 标准 GPU 集群通过 PCIe 或 NVLink 进行芯片间通信，造成带宽瓶颈，限制训练任务的并行化程度。Dojo 的 D1 对 D1 直连针对 Tesla 训练工作负载的特定通信模式设计——主要是 FSD 感知模型的大型视频数据批次。此架构以通用灵活性换取针对特定工作负载类型的优化吞吐量。

规模背景： 1 EFLOP（exaFLOP）代表每秒 10^18 次浮点运算。作为对比，美国政府的 Frontier 超级计算机——全球首台公开确认的 exascale 计算机——也是围绕这一规模设计的。Tesla 正尝试使用自研芯片而非现成硬件达到 exascale 训练容量。

第二节 — 自建与外购的经济学

Dojo 与云端 NVIDIA 算力的财务比较并不简单。结果在很大程度上取决于使用率、时间跨度以及纳入哪些成本项目。以下所有数字均为基于公开资料和业界分析的估计值。

指标	Tesla Dojo（自建）	云端 NVIDIA H100（外购）	备注
每 ExaPOD 资本支出（估）	3 亿–5 亿美元以上（估）	无前期费用	Dojo 需要大量资本投入；云端将资本支出转为运营支出
每 PFLOP-天运营成本（估）	0.05–0.15 美元（估，规模化后）	0.50–2.00 美元（云端按需/竞价，估）	Dojo 成本优势仅在高使用率下才能实现
损益平衡使用率（估）	60–80%（估）	不适用	低于此门槛时，云端每单位算力更便宜
灵活性	低 — 固定架构，难以在代际中途升级	高 — 数天内即可租用最新 NVIDIA 芯片（B200/Blackwell）
获得新硬件的速度	每芯片世代 3–5 年	数天 — 云端在新 NVIDIA 芯片上市后即可提供
数据安全性	高 — Tesla 训练数据从不离开 Tesla 控制的基础设施	中 — 云服务商提供合同保护，但数据在共享基础设施上传输
厂商风险	Tesla 自主控制 — 训练容量不依赖 NVIDIA 定价或供应	暴露于 NVIDIA 定价能力和硬件供应周期
损益平衡点（估）	重度使用 4–6 年（估）	不适用 — 随用随付，无固定回收期

解读这份经济账： 关键变量是使用率。在连续四年以上维持 80% 以上使用率的情况下，Dojo 的每 PFLOP 成本远低于云端费率。在 40% 以下的使用率时，每单位算力的摊提资本支出成本可能超过 Tesla 按需租用 H100 集群的费用。这使得 Dojo 的经济可行性与 Tesla 大规模产生训练工作负载的能力密切相关——而这本身又与 FSD 推广速度、Optimus 产量以及 Tesla 标记驾驶数据语料库的持续增长挂钩。

第三节 — 支持 Dojo 的战略论据

Tesla 建造 Dojo 的理由超越了纯粹的成本经济学。四个战略论点尤为有力。

1. 数据安全与知识产权保护

Tesla 的 FSD 训练数据——来自全球 Tesla 车队的数十亿英里标记驾驶视频——是科技业最具竞争敏感性的专有数据集之一。通过云服务商传输这些数据，即使在合同 NDA 保护下，也会引入知识产权和竞争情报风险。完全在自有基础设施上训练消除了这个风险面。对于 AI 护城河本质上是数据护城河的公司而言，这绝非微不足道的考量。

2. 自定义芯片优化

NVIDIA GPU 设计为跨广泛工作负载的通用加速器。Dojo 的 D1 芯片专门针对 Tesla 的训练工作负载特性设计：高吞吐量视频数据摄入、摄像头输入的端到端神经网络训练，以及大规模数据并行训练任务。针对特定工作负载类型优化的自定义芯片，在目标工作负载上可比通用加速器实现约 2–5 倍更优的每瓦性能（估）——尽管此优势范围较窄，不适用于预期用途之外的场景。

3. 厂商独立性与供应安全

2023–2024 年的 NVIDIA H100 短缺，揭示了依赖单一厂商供应链来获取关键 AI 基础设施的风险。在短缺期间，H100 实例的云端竞价定价相比短缺前基线激增了 3–5 倍（估）。拥有事先采购协议的公司维持了算力获取；没有的则面临训练延迟。Dojo 为 Tesla 提供了保障性的算力容量，其扩展依赖 Tesla 自身的生产能力，而非 NVIDIA 的供应配额决策。

4. Optimus 数据飞轮锁定

随着 Optimus 从原型到大规模生产，它产生了全新类别的训练数据：人形机器人互动数据、操作任务示范，以及策略反馈信号。训练日益强大的人形策略需要持续的规模化算力。若 Optimus 达到每年 5 万台以上的部署量，数据生成速率和相关训练算力需求可能超过当前 FSD 训练的需求。拥有算力层意味着 Optimus 训练成本是 Tesla 自身硅片经济学的函数，而非外部厂商定价结构的函数。

5. 潜在外部收入来源

Tesla 已公开提及向外部 AI 公司提供 Dojo 算力即服务的可能性。若 Dojo 达到 exaFLOP 规模，且 Tesla 自身使用率尚有余裕，出售闲置容量访问权代表了在算力稀缺持续的市场中的新收入来源。

第四节 — 反对 Dojo 的论点（空头论述）

支持 Dojo 的战略论点确实存在，但反论同样值得认真对待。四个空头论点值得重视。

1. 资本支出的机会成本

每一美元的 Dojo 资本支出（每 ExaPOD 估计 3 亿–5 亿美元以上）在短期内可替代性地提供 5–10 倍更多的 NVIDIA H100 或 B200 算力，因为云端将资本支出转为运营支出，而云服务商在硬件采购上实现了 Tesla 在可比规模下无法匹敌的规模经济。若训练速度——单位时间内的迭代次数——比长期成本效率更重要，云端可能以较高的每 PFLOP 成本产生更快的 FSD 改进。

2. 架构过时风险

Dojo D1 使用台积电 7nm 制程制造。NVIDIA 的 Blackwell B200 使用台积电 4nm 以上制程，在相关基准测试上比 H100 提升了约 5 倍性能。自定义加速器的芯片设计周期，从流片到量产通常需要 3–5 年。等到 Dojo D2 或下一代自定义芯片投入量产时，NVIDIA 可能已经推出了两个以上的后续世代。

3. 软件生态系统不成熟

NVIDIA 的 CUDA 生态系统拥有超过 15 年的库开发、第三方框架支持和工程人才积累。PyTorch、TensorFlow、JAX 以及几乎所有主要 ML 研究框架都以 CUDA 为主要执行后端。Dojo 需要 Tesla 自定义的软件栈——专有编译器、自定义库和定制训练框架。这造成人才招募劣势、工具劣势和调试劣势。

4. 使用率风险

Dojo 的经济案例依赖于多年回收期内持续的高使用率。若 FSD 训练需求触顶，或若 Optimus 量产爬坡比预期缓慢，使用率可能压缩至损益平衡门槛以下。云端算力在不需要时可以优雅地缩减至接近零；Dojo 则无法。

第五节 — Dojo 对 FSD 与 Optimus 时间线的意涵

里程碑	Dojo 贡献（估）	无 Dojo（仅云端）
FSD v14 到 v15 泛化跃升	能够在无云端成本限制下对完整标记数据集持续重新训练（估）	技术上可行，但在同等训练规模下估计成本高出 2–3 倍（估）
Optimus 任务泛化（10 到 50 个任务）	Dojo 容量支持 Optimus 部署产生的大规模人形策略训练	受限于所需训练规模下云端 H100 的可用性和每小时成本
Optimus 5 万台训练支持	需要约 5–10 个 ExaPOD 的持续训练容量（估）	在同等算力下每年云端成本估计超过 5 亿美元（估）
Dojo 作为外部算力产品	若使用率允许，2027–2028 年为潜在窗口（估）	不适用

FSD 解读： Dojo 对 FSD 最具体的近期利益，是消除训练数据利用的成本上限。在完全摊提资本支出的 Dojo 规模下，额外训练算力的边际成本趋近于零，可能实现更频繁的模型迭代和对可用标记数据更充分的利用。

Optimus 解读： 若 Optimus 以每年 5 万–10 万台的规模实现大规模量产，每台机器人都会持续产生必须纳入策略更新的互动数据。在那个规模下，云端经济学将变得真正令人望而却步——这使得 Dojo 的固定成本结构成为维持 Optimus 数据飞轮的唯一可行途径。

第六节 — 关于本系列

本文是实体 AI 基准系列的第 34 篇，增加了 AI 训练基础设施维度：Tesla 算力策略核心的自建与外购决策、Dojo 与云端 NVIDIA 集群的架构和经济比较，以及未来三到五年 FSD 和 Optimus 训练容量的意涵。

提示： 本文所有成本估计、性能数字和时间线预测均为基于公开信息、分析师评论和技术演讲的估计值。不构成投资建议。在做出任何投资决策前，请进行自身的尽职调查，并咨询持牌财务顾问。