2026-06-18 — views
Tesla Dojo vs. 云端算力 — FSD 与 Optimus 训练背后的自建与外购决策
Tesla 自研 Dojo 集群与租用 H100/B200 云端算力的架构、经济模型与战略意涵全面比较分析。
实体 AI 基准系列 第 34 篇 — AI 训练基础设施分析
Tesla 正在建造全球最雄心勃勃的自研 AI 训练集群之一。Dojo 是 Tesla 专门打造的超级计算机,代表着一个根本性的赌注:大规模拥有算力基础设施,比向 Amazon、Google 或 Microsoft 租用它更便宜、更快速、战略上也更具防御性。本文详细审视这个赌注:Dojo 是什么、它与向主要云服务商租用 NVIDIA H100 或 B200 集群相比如何、自建与外购的经济学,以及 Dojo 对 Tesla FSD 和 Optimus 长期 AI 训练成本结构的意涵。
第一节 — Dojo 架构概述
Dojo 是 Tesla 从零设计的训练系统,并非任何现有厂商架构的衍生品。组成单元从芯片层级开始,逐步扩展为训练磁贴(Tile)、ExaPOD,最终形成多 ExaPOD 集群。
| 组件 | 规格 |
|---|---|
| 自研芯片 | D1(Dojo 1)— 台积电 7nm 制程,BF16 性能 50 TFLOPS,每芯片约 10 kW,内存带宽 900 GB/s |
| 训练磁贴 | 每磁贴 25 颗 D1 芯片;每磁贴约 2 PFLOPS |
| ExaPOD | 每 ExaPOD 120 个训练磁贴;总计约 100 PFLOPS;容纳于一个机柜 |
| 目标集群规模 | 多个 ExaPOD;Tesla 目标于 2025/2026 年底达约 1 EFLOP(exaFLOP)训练容量(估) |
| 互联技术 | D1 对 D1 自研高带宽直连 — 避免传统 GPU 集群的 PCIe 带宽瓶颈 |
| 主要用途 | 端到端 FSD 神经网络训练;Optimus 机器人策略训练。非推理用途(推理在车辆 FSD 芯片上执行) |
| 混合策略 | Tesla 同时向云服务商租用 NVIDIA A100/H100 集群,用于突发训练工作负载 |
为何互联技术重要: 标准 GPU 集群通过 PCIe 或 NVLink 进行芯片间通信,造成带宽瓶颈,限制训练任务的并行化程度。Dojo 的 D1 对 D1 直连针对 Tesla 训练工作负载的特定通信模式设计——主要是 FSD 感知模型的大型视频数据批次。此架构以通用灵活性换取针对特定工作负载类型的优化吞吐量。
规模背景: 1 EFLOP(exaFLOP)代表每秒 10^18 次浮点运算。作为对比,美国政府的 Frontier 超级计算机——全球首台公开确认的 exascale 计算机——也是围绕这一规模设计的。Tesla 正尝试使用自研芯片而非现成硬件达到 exascale 训练容量。
第二节 — 自建与外购的经济学
Dojo 与云端 NVIDIA 算力的财务比较并不简单。结果在很大程度上取决于使用率、时间跨度以及纳入哪些成本项目。以下所有数字均为基于公开资料和业界分析的估计值。
| 指标 | Tesla Dojo(自建) | 云端 NVIDIA H100(外购) | 备注 |
|---|---|---|---|
| 每 ExaPOD 资本支出(估) | 3 亿–5 亿美元以上(估) | 无前期费用 | Dojo 需要大量资本投入;云端将资本支出转为运营支出 |
| 每 PFLOP-天运营成本(估) | 0.05–0.15 美元(估,规模化后) | 0.50–2.00 美元(云端按需/竞价,估) | Dojo 成本优势仅在高使用率下才能实现 |
| 损益平衡使用率(估) | 60–80%(估) | 不适用 | 低于此门槛时,云端每单位算力更便宜 |
| 灵活性 | 低 — 固定架构,难以在代际中途升级 | 高 — 数天内即可租用最新 NVIDIA 芯片(B200/Blackwell) | |
| 获得新硬件的速度 | 每芯片世代 3–5 年 | 数天 — 云端在新 NVIDIA 芯片上市后即可提供 | |
| 数据安全性 | 高 — Tesla 训练数据从不离开 Tesla 控制的基础设施 | 中 — 云服务商提供合同保护,但数据在共享基础设施上传输 | |
| 厂商风险 | Tesla 自主控制 — 训练容量不依赖 NVIDIA 定价或供应 | 暴露于 NVIDIA 定价能力和硬件供应周期 | |
| 损益平衡点(估) | 重度使用 4–6 年(估) | 不适用 — 随用随付,无固定回收期 |
解读这份经济账: 关键变量是使用率。在连续四年以上维持 80% 以上使用率的情况下,Dojo 的每 PFLOP 成本远低于云端费率。在 40% 以下的使用率时,每单位算力的摊提资本支出成本可能超过 Tesla 按需租用 H100 集群的费用。这使得 Dojo 的经济可行性与 Tesla 大规模产生训练工作负载的能力密切相关——而这本身又与 FSD 推广速度、Optimus 产量以及 Tesla 标记驾驶数据语料库的持续增长挂钩。
第三节 — 支持 Dojo 的战略论据
Tesla 建造 Dojo 的理由超越了纯粹的成本经济学。四个战略论点尤为有力。
1. 数据安全与知识产权保护
Tesla 的 FSD 训练数据——来自全球 Tesla 车队的数十亿英里标记驾驶视频——是科技业最具竞争敏感性的专有数据集之一。通过云服务商传输这些数据,即使在合同 NDA 保护下,也会引入知识产权和竞争情报风险。完全在自有基础设施上训练消除了这个风险面。对于 AI 护城河本质上是数据护城河的公司而言,这绝非微不足道的考量。
2. 自定义芯片优化
NVIDIA GPU 设计为跨广泛工作负载的通用加速器。Dojo 的 D1 芯片专门针对 Tesla 的训练工作负载特性设计:高吞吐量视频数据摄入、摄像头输入的端到端神经网络训练,以及大规模数据并行训练任务。针对特定工作负载类型优化的自定义芯片,在目标工作负载上可比通用加速器实现约 2–5 倍更优的每瓦性能(估)——尽管此优势范围较窄,不适用于预期用途之外的场景。
3. 厂商独立性与供应安全
2023–2024 年的 NVIDIA H100 短缺,揭示了依赖单一厂商供应链来获取关键 AI 基础设施的风险。在短缺期间,H100 实例的云端竞价定价相比短缺前基线激增了 3–5 倍(估)。拥有事先采购协议的公司维持了算力获取;没有的则面临训练延迟。Dojo 为 Tesla 提供了保障性的算力容量,其扩展依赖 Tesla 自身的生产能力,而非 NVIDIA 的供应配额决策。
4. Optimus 数据飞轮锁定
随着 Optimus 从原型到大规模生产,它产生了全新类别的训练数据:人形机器人互动数据、操作任务示范,以及策略反馈信号。训练日益强大的人形策略需要持续的规模化算力。若 Optimus 达到每年 5 万台以上的部署量,数据生成速率和相关训练算力需求可能超过当前 FSD 训练的需求。拥有算力层意味着 Optimus 训练成本是 Tesla 自身硅片经济学的函数,而非外部厂商定价结构的函数。
5. 潜在外部收入来源
Tesla 已公开提及向外部 AI 公司提供 Dojo 算力即服务的可能性。若 Dojo 达到 exaFLOP 规模,且 Tesla 自身使用率尚有余裕,出售闲置容量访问权代表了在算力稀缺持续的市场中的新收入来源。
第四节 — 反对 Dojo 的论点(空头论述)
支持 Dojo 的战略论点确实存在,但反论同样值得认真对待。四个空头论点值得重视。
1. 资本支出的机会成本
每一美元的 Dojo 资本支出(每 ExaPOD 估计 3 亿–5 亿美元以上)在短期内可替代性地提供 5–10 倍更多的 NVIDIA H100 或 B200 算力,因为云端将资本支出转为运营支出,而云服务商在硬件采购上实现了 Tesla 在可比规模下无法匹敌的规模经济。若训练速度——单位时间内的迭代次数——比长期成本效率更重要,云端可能以较高的每 PFLOP 成本产生更快的 FSD 改进。
2. 架构过时风险
Dojo D1 使用台积电 7nm 制程制造。NVIDIA 的 Blackwell B200 使用台积电 4nm 以上制程,在相关基准测试上比 H100 提升了约 5 倍性能。自定义加速器的芯片设计周期,从流片到量产通常需要 3–5 年。等到 Dojo D2 或下一代自定义芯片投入量产时,NVIDIA 可能已经推出了两个以上的后续世代。
3. 软件生态系统不成熟
NVIDIA 的 CUDA 生态系统拥有超过 15 年的库开发、第三方框架支持和工程人才积累。PyTorch、TensorFlow、JAX 以及几乎所有主要 ML 研究框架都以 CUDA 为主要执行后端。Dojo 需要 Tesla 自定义的软件栈——专有编译器、自定义库和定制训练框架。这造成人才招募劣势、工具劣势和调试劣势。
4. 使用率风险
Dojo 的经济案例依赖于多年回收期内持续的高使用率。若 FSD 训练需求触顶,或若 Optimus 量产爬坡比预期缓慢,使用率可能压缩至损益平衡门槛以下。云端算力在不需要时可以优雅地缩减至接近零;Dojo 则无法。
第五节 — Dojo 对 FSD 与 Optimus 时间线的意涵
| 里程碑 | Dojo 贡献(估) | 无 Dojo(仅云端) |
|---|---|---|
| FSD v14 到 v15 泛化跃升 | 能够在无云端成本限制下对完整标记数据集持续重新训练(估) | 技术上可行,但在同等训练规模下估计成本高出 2–3 倍(估) |
| Optimus 任务泛化(10 到 50 个任务) | Dojo 容量支持 Optimus 部署产生的大规模人形策略训练 | 受限于所需训练规模下云端 H100 的可用性和每小时成本 |
| Optimus 5 万台训练支持 | 需要约 5–10 个 ExaPOD 的持续训练容量(估) | 在同等算力下每年云端成本估计超过 5 亿美元(估) |
| Dojo 作为外部算力产品 | 若使用率允许,2027–2028 年为潜在窗口(估) | 不适用 |
FSD 解读: Dojo 对 FSD 最具体的近期利益,是消除训练数据利用的成本上限。在完全摊提资本支出的 Dojo 规模下,额外训练算力的边际成本趋近于零,可能实现更频繁的模型迭代和对可用标记数据更充分的利用。
Optimus 解读: 若 Optimus 以每年 5 万–10 万台的规模实现大规模量产,每台机器人都会持续产生必须纳入策略更新的互动数据。在那个规模下,云端经济学将变得真正令人望而却步——这使得 Dojo 的固定成本结构成为维持 Optimus 数据飞轮的唯一可行途径。
第六节 — 关于本系列
本文是实体 AI 基准系列的第 34 篇,增加了 AI 训练基础设施维度:Tesla 算力策略核心的自建与外购决策、Dojo 与云端 NVIDIA 集群的架构和经济比较,以及未来三到五年 FSD 和 Optimus 训练容量的意涵。
提示: 本文所有成本估计、性能数字和时间线预测均为基于公开信息、分析师评论和技术演讲的估计值。不构成投资建议。在做出任何投资决策前,请进行自身的尽职调查,并咨询持牌财务顾问。
来源
- Tesla Dojo 超级计算机 — Tesla AI ↗
- Tesla Dojo D1 芯片架构 — Hot Chips 2021 Tesla 演讲 ↗
- NVIDIA H100/B200 云端定价 — AWS/GCP ↗
- AI 算力成本趋势 — Epoch AI 研究 ↗