Skip to content
AI-Daily-Builder

2026-06-18 views

Tesla Dojo vs. 云端算力 — FSD 与 Optimus 训练背后的自建与外购决策

Tesla 自研 Dojo 集群与租用 H100/B200 云端算力的架构、经济模型与战略意涵全面比较分析。

实体 AI 基准系列 第 34 篇 — AI 训练基础设施分析

Tesla 正在建造全球最雄心勃勃的自研 AI 训练集群之一。Dojo 是 Tesla 专门打造的超级计算机,代表着一个根本性的赌注:大规模拥有算力基础设施,比向 Amazon、Google 或 Microsoft 租用它更便宜、更快速、战略上也更具防御性。本文详细审视这个赌注:Dojo 是什么、它与向主要云服务商租用 NVIDIA H100 或 B200 集群相比如何、自建与外购的经济学,以及 Dojo 对 Tesla FSD 和 Optimus 长期 AI 训练成本结构的意涵。


第一节 — Dojo 架构概述

Dojo 是 Tesla 从零设计的训练系统,并非任何现有厂商架构的衍生品。组成单元从芯片层级开始,逐步扩展为训练磁贴(Tile)、ExaPOD,最终形成多 ExaPOD 集群。

组件规格
自研芯片D1(Dojo 1)— 台积电 7nm 制程,BF16 性能 50 TFLOPS,每芯片约 10 kW,内存带宽 900 GB/s
训练磁贴每磁贴 25 颗 D1 芯片;每磁贴约 2 PFLOPS
ExaPOD每 ExaPOD 120 个训练磁贴;总计约 100 PFLOPS;容纳于一个机柜
目标集群规模多个 ExaPOD;Tesla 目标于 2025/2026 年底达约 1 EFLOP(exaFLOP)训练容量(估)
互联技术D1 对 D1 自研高带宽直连 — 避免传统 GPU 集群的 PCIe 带宽瓶颈
主要用途端到端 FSD 神经网络训练;Optimus 机器人策略训练。非推理用途(推理在车辆 FSD 芯片上执行)
混合策略Tesla 同时向云服务商租用 NVIDIA A100/H100 集群,用于突发训练工作负载

为何互联技术重要: 标准 GPU 集群通过 PCIe 或 NVLink 进行芯片间通信,造成带宽瓶颈,限制训练任务的并行化程度。Dojo 的 D1 对 D1 直连针对 Tesla 训练工作负载的特定通信模式设计——主要是 FSD 感知模型的大型视频数据批次。此架构以通用灵活性换取针对特定工作负载类型的优化吞吐量。

规模背景: 1 EFLOP(exaFLOP)代表每秒 10^18 次浮点运算。作为对比,美国政府的 Frontier 超级计算机——全球首台公开确认的 exascale 计算机——也是围绕这一规模设计的。Tesla 正尝试使用自研芯片而非现成硬件达到 exascale 训练容量。


第二节 — 自建与外购的经济学

Dojo 与云端 NVIDIA 算力的财务比较并不简单。结果在很大程度上取决于使用率、时间跨度以及纳入哪些成本项目。以下所有数字均为基于公开资料和业界分析的估计值。

指标Tesla Dojo(自建)云端 NVIDIA H100(外购)备注
每 ExaPOD 资本支出(估)3 亿–5 亿美元以上(估)无前期费用Dojo 需要大量资本投入;云端将资本支出转为运营支出
每 PFLOP-天运营成本(估)0.05–0.15 美元(估,规模化后)0.50–2.00 美元(云端按需/竞价,估)Dojo 成本优势仅在高使用率下才能实现
损益平衡使用率(估)60–80%(估)不适用低于此门槛时,云端每单位算力更便宜
灵活性低 — 固定架构,难以在代际中途升级高 — 数天内即可租用最新 NVIDIA 芯片(B200/Blackwell)
获得新硬件的速度每芯片世代 3–5 年数天 — 云端在新 NVIDIA 芯片上市后即可提供
数据安全性高 — Tesla 训练数据从不离开 Tesla 控制的基础设施中 — 云服务商提供合同保护,但数据在共享基础设施上传输
厂商风险Tesla 自主控制 — 训练容量不依赖 NVIDIA 定价或供应暴露于 NVIDIA 定价能力和硬件供应周期
损益平衡点(估)重度使用 4–6 年(估)不适用 — 随用随付,无固定回收期

解读这份经济账: 关键变量是使用率。在连续四年以上维持 80% 以上使用率的情况下,Dojo 的每 PFLOP 成本远低于云端费率。在 40% 以下的使用率时,每单位算力的摊提资本支出成本可能超过 Tesla 按需租用 H100 集群的费用。这使得 Dojo 的经济可行性与 Tesla 大规模产生训练工作负载的能力密切相关——而这本身又与 FSD 推广速度、Optimus 产量以及 Tesla 标记驾驶数据语料库的持续增长挂钩。


第三节 — 支持 Dojo 的战略论据

Tesla 建造 Dojo 的理由超越了纯粹的成本经济学。四个战略论点尤为有力。

1. 数据安全与知识产权保护

Tesla 的 FSD 训练数据——来自全球 Tesla 车队的数十亿英里标记驾驶视频——是科技业最具竞争敏感性的专有数据集之一。通过云服务商传输这些数据,即使在合同 NDA 保护下,也会引入知识产权和竞争情报风险。完全在自有基础设施上训练消除了这个风险面。对于 AI 护城河本质上是数据护城河的公司而言,这绝非微不足道的考量。

2. 自定义芯片优化

NVIDIA GPU 设计为跨广泛工作负载的通用加速器。Dojo 的 D1 芯片专门针对 Tesla 的训练工作负载特性设计:高吞吐量视频数据摄入、摄像头输入的端到端神经网络训练,以及大规模数据并行训练任务。针对特定工作负载类型优化的自定义芯片,在目标工作负载上可比通用加速器实现约 2–5 倍更优的每瓦性能(估)——尽管此优势范围较窄,不适用于预期用途之外的场景。

3. 厂商独立性与供应安全

2023–2024 年的 NVIDIA H100 短缺,揭示了依赖单一厂商供应链来获取关键 AI 基础设施的风险。在短缺期间,H100 实例的云端竞价定价相比短缺前基线激增了 3–5 倍(估)。拥有事先采购协议的公司维持了算力获取;没有的则面临训练延迟。Dojo 为 Tesla 提供了保障性的算力容量,其扩展依赖 Tesla 自身的生产能力,而非 NVIDIA 的供应配额决策。

4. Optimus 数据飞轮锁定

随着 Optimus 从原型到大规模生产,它产生了全新类别的训练数据:人形机器人互动数据、操作任务示范,以及策略反馈信号。训练日益强大的人形策略需要持续的规模化算力。若 Optimus 达到每年 5 万台以上的部署量,数据生成速率和相关训练算力需求可能超过当前 FSD 训练的需求。拥有算力层意味着 Optimus 训练成本是 Tesla 自身硅片经济学的函数,而非外部厂商定价结构的函数。

5. 潜在外部收入来源

Tesla 已公开提及向外部 AI 公司提供 Dojo 算力即服务的可能性。若 Dojo 达到 exaFLOP 规模,且 Tesla 自身使用率尚有余裕,出售闲置容量访问权代表了在算力稀缺持续的市场中的新收入来源。


第四节 — 反对 Dojo 的论点(空头论述)

支持 Dojo 的战略论点确实存在,但反论同样值得认真对待。四个空头论点值得重视。

1. 资本支出的机会成本

每一美元的 Dojo 资本支出(每 ExaPOD 估计 3 亿–5 亿美元以上)在短期内可替代性地提供 5–10 倍更多的 NVIDIA H100 或 B200 算力,因为云端将资本支出转为运营支出,而云服务商在硬件采购上实现了 Tesla 在可比规模下无法匹敌的规模经济。若训练速度——单位时间内的迭代次数——比长期成本效率更重要,云端可能以较高的每 PFLOP 成本产生更快的 FSD 改进。

2. 架构过时风险

Dojo D1 使用台积电 7nm 制程制造。NVIDIA 的 Blackwell B200 使用台积电 4nm 以上制程,在相关基准测试上比 H100 提升了约 5 倍性能。自定义加速器的芯片设计周期,从流片到量产通常需要 3–5 年。等到 Dojo D2 或下一代自定义芯片投入量产时,NVIDIA 可能已经推出了两个以上的后续世代。

3. 软件生态系统不成熟

NVIDIA 的 CUDA 生态系统拥有超过 15 年的库开发、第三方框架支持和工程人才积累。PyTorch、TensorFlow、JAX 以及几乎所有主要 ML 研究框架都以 CUDA 为主要执行后端。Dojo 需要 Tesla 自定义的软件栈——专有编译器、自定义库和定制训练框架。这造成人才招募劣势、工具劣势和调试劣势。

4. 使用率风险

Dojo 的经济案例依赖于多年回收期内持续的高使用率。若 FSD 训练需求触顶,或若 Optimus 量产爬坡比预期缓慢,使用率可能压缩至损益平衡门槛以下。云端算力在不需要时可以优雅地缩减至接近零;Dojo 则无法。


第五节 — Dojo 对 FSD 与 Optimus 时间线的意涵

里程碑Dojo 贡献(估)无 Dojo(仅云端)
FSD v14 到 v15 泛化跃升能够在无云端成本限制下对完整标记数据集持续重新训练(估)技术上可行,但在同等训练规模下估计成本高出 2–3 倍(估)
Optimus 任务泛化(10 到 50 个任务)Dojo 容量支持 Optimus 部署产生的大规模人形策略训练受限于所需训练规模下云端 H100 的可用性和每小时成本
Optimus 5 万台训练支持需要约 5–10 个 ExaPOD 的持续训练容量(估)在同等算力下每年云端成本估计超过 5 亿美元(估)
Dojo 作为外部算力产品若使用率允许,2027–2028 年为潜在窗口(估)不适用

FSD 解读: Dojo 对 FSD 最具体的近期利益,是消除训练数据利用的成本上限。在完全摊提资本支出的 Dojo 规模下,额外训练算力的边际成本趋近于零,可能实现更频繁的模型迭代和对可用标记数据更充分的利用。

Optimus 解读: 若 Optimus 以每年 5 万–10 万台的规模实现大规模量产,每台机器人都会持续产生必须纳入策略更新的互动数据。在那个规模下,云端经济学将变得真正令人望而却步——这使得 Dojo 的固定成本结构成为维持 Optimus 数据飞轮的唯一可行途径。


第六节 — 关于本系列

本文是实体 AI 基准系列的第 34 篇,增加了 AI 训练基础设施维度:Tesla 算力策略核心的自建与外购决策、Dojo 与云端 NVIDIA 集群的架构和经济比较,以及未来三到五年 FSD 和 Optimus 训练容量的意涵。

提示: 本文所有成本估计、性能数字和时间线预测均为基于公开信息、分析师评论和技术演讲的估计值。不构成投资建议。在做出任何投资决策前,请进行自身的尽职调查,并咨询持牌财务顾问。


来源

标签

请喝咖啡