2026-06-18 — views
Tesla Dojo vs. クラウドコンピューティング — FSDとOptimusトレーニングを支える自社構築vs.外部調達の意思決定
TeslaのDojoクラスターとH100/B200クラウドの比較:アーキテクチャ・経済性・FSDとOptimus向け戦略的意涵を分析。
フィジカルAIベンチマークシリーズ 第34回 — AIトレーニングインフラ分析
Teslaは世界で最も野心的なカスタムAIトレーニングクラスターの一つを構築しています。Dojoは、Teslaが専用設計したスーパーコンピューターであり、スケールでコンピューティングインフラを所有することが、Amazon、Google、またはMicrosoftからレンタルするよりも安価で速く、戦略的に防御しやすいという根本的な賭けを表しています。本記事では、Dojoとは何か、主要クラウドプロバイダーからNVIDIA H100またはB200クラスターをレンタルすることとの比較、自社構築vs.外部調達の経済性、そしてDojoがTeslaのFSDとOptimus両方における長期的AIトレーニングコスト構造に何を意味するかを詳しく検討します。
セクション1 — Dojoアーキテクチャの概要
Dojoは、Teslaがゼロから設計したトレーニングシステムであり、既存のベンダーアーキテクチャの派生品ではありません。構成単位はチップレベルから始まり、トレーニングタイル、ExaPOD、そして最終的には複数のExaPODクラスターへと拡張されます。
| コンポーネント | 仕様 |
|---|---|
| カスタムチップ | D1(Dojo 1)— TSMCの7nmプロセス、BF16性能50 TFLOPS、チップあたり約10 kW、メモリ帯域幅900 GB/s |
| トレーニングタイル | タイルあたりD1チップ25個、タイルあたり約2 PFLOPS |
| ExaPOD | ExaPODあたり120個のトレーニングタイル、合計約100 PFLOPS、1つのキャビネットに収容 |
| 目標クラスタースケール | 複数のExaPOD、Teslaは2025/2026年末までに約1 EFLOP(エクサFLOP)のトレーニング容量を目標(推定) |
| インターコネクト | カスタム高帯域幅D1対D1直接リンク — 従来のGPUクラスターのPCIe帯域幅ボトルネックを回避 |
| 主な用途 | エンドツーエンドのFSDニューラルネットワークトレーニング、Optimusロボットポリシートレーニング。推論には使用しない(推論は車両のFSDハードウェアで実行) |
| ハイブリッドアプローチ | TeslaはDojoと並行して、バーストトレーニングワークロード向けにクラウドプロバイダーからNVIDIA A100/H100クラスターもレンタル |
インターコネクトが重要な理由: 標準的なGPUクラスターはPCIeまたはNVLinkを介してチップ間通信を行い、トレーニングジョブの並列化の度合いを制限する帯域幅ボトルネックが生じます。DojoのD1対D1リンクは、Teslaのトレーニングワークロードの特定の通信パターン——主にFSD知覚モデル向けの大規模ビデオデータバッチ——に合わせて設計されています。このアーキテクチャは、汎用的な柔軟性とトレードオフして、対象ワークロードタイプに対する最適化されたスループットを実現します。
セクション2 — 自社構築vs.外部調達の経済性
DojoとクラウドNVIDIAコンピューティングの財務比較は単純ではありません。結果は稼働率、時間軸、そしてどのコスト要素を含めるかに大きく依存します。以下のすべての数値は、公開情報と業界分析に基づく推定値です。
| 指標 | Tesla Dojo(自社構築) | クラウドNVIDIA H100(外部調達) | 備考 |
|---|---|---|---|
| ExaPODあたり設備投資(推定) | 3億〜5億ドル以上(推定) | 初期費用なし | Dojoは大規模な設備投資が必要 |
| PFLOP-日あたり運用コスト(推定) | 0.05〜0.15ドル(推定、規模化時) | 0.50〜2.00ドル(クラウドオンデマンド/スポット、推定) | Dojoのコスト優位は高稼働率でのみ実現 |
| 損益分岐点稼働率(推定) | 60〜80%(推定) | N/A | この閾値を下回ると、クラウドの方が単位コンピューティングあたりのコストが低い |
| 柔軟性 | 低 — 固定アーキテクチャ、世代途中のアップグレードが困難 | 高 — 最新のNVIDIAシリコン(B200/Blackwell)を数日以内にレンタル可能 | |
| 新ハードウェアへのアクセス | チップ世代あたり3〜5年 | 数日 — クラウドは新しいNVIDIAシリコン登場後すぐに提供 | |
| データセキュリティ | 高 — TeslaのトレーニングデータはTesla管理インフラ外に出ない | 中 — クラウドプロバイダーは契約上の保護を提供するが、データは共有インフラ上を通過 | |
| ベンダーリスク | Tesla管理下 — トレーニング容量はNVIDIAの価格設定や可用性に依存しない | NVIDIAの価格決定力とハードウェア可用性サイクルに暴露 | |
| 損益分岐点(推定) | 4〜6年の重度使用(推定) | N/A — 従量制、固定回収期間なし |
セクション3 — Dojoの戦略的根拠
Teslaのコスト経済学を超えたDojo構築の論理。4つの戦略的論点が特に説得力を持ちます。
1. データセキュリティと知的財産保護
TeslaのFSDトレーニングデータ——グローバルなTeslaフリートから収集した何十億マイルものラベル付き走行映像——は、テクノロジーセクターで最も競争上センシティブな独自データセットの一つです。このデータをクラウドプロバイダー経由でルーティングすることは、契約上のNDA下でも知的財産と競争情報のリスクをもたらします。
2. カスタムシリコンの最適化
NVIDIA GPUは幅広いワークロードに対応する汎用アクセラレーターとして設計されています。DojoのD1チップは、Teslaのトレーニングワークロードプロファイルに特化して設計されています。対象ワークロードタイプに最適化されたカスタムシリコンは、汎用アクセラレーターと比較してそのワークロードで約2〜5倍優れたワットあたり性能を達成できます(推定)。
3. ベンダー独立性と供給安全保障
2023〜2024年のNVIDIA H100不足は、重要なAIインフラの単一ベンダー供給チェーンに依存するリスクを実証しました。不足期間中、H100インスタンスのクラウドスポット価格は不足前の基準値から3〜5倍(推定)急騰しました。Dojoは、NVIDIAの供給配分決定ではなくTesla自身の生産能力に応じてスケールする保証されたコンピューティング容量を提供します。
4. Optimusデータフライホイールのロックイン
Optimusがプロトタイプから量産へとスケールするにつれて、人型ロボットのインタラクションデータ、操作タスクのデモンストレーション、ポリシーフィードバック信号という全く新しいカテゴリのトレーニングデータが生成されます。コンピューティング層を所有することは、Optimusのトレーニングコストが外部ベンダーの価格構造ではなくTesla自身のシリコン経済学の関数になることを意味します。
セクション4 — Dojoへの反論(ベア論拠)
Dojoの戦略的論点は実在しますが、反論も同様に真剣に受け止める価値があります。
1. 設備投資の機会費用
Dojoの設備投資に費やされる全ての1ドル(ExaPODあたり3億〜5億ドル以上、推定)は、クラウドが設備投資を運用コストに変換し、クラウドプロバイダーがTeslaが同等の規模では太刀打ちできない規模の経済を達成するため、短期的にはNVIDIA H100またはB200コンピューティングを5〜10倍多くアクセスするための代替資金として使えます。
2. アーキテクチャの陳腐化
Dojo D1はTSMCの7nmノードで製造されています。NVIDIAのBlackwell B200はTSMCの4nm以上のノードで製造され、関連するベンチマークでH100比約5倍の性能向上を達成しています。カスタムアクセラレーターのチップ設計サイクルは、テープアウトから量産展開まで通常3〜5年かかります。Dojo D2または次世代カスタムチップが量産に入るころには、NVIDIAはさらに2世代以上を出荷している可能性があります。
3. ソフトウェアエコシステムの未熟さ
NVIDIAのCUDAエコシステムには15年以上のライブラリ開発、サードパーティフレームワークサポート、エンジニアリング人材の蓄積があります。DojoはTeslaカスタムのソフトウェアスタックを必要とします——独自コンパイラ、カスタムライブラリ、専用トレーニングフレームワーク。これは採用上の不利、ツーリング上の不利、デバッグ上の不利をもたらします。
4. 稼働率リスク
Dojoの経済的なケースは、複数年にわたる回収期間において持続的な高稼働率に依存しています。FSDトレーニングニーズが頭打ちになった場合、またはOptimus量産の立ち上がりが予測より遅れた場合、稼働率が損益分岐点の閾値を下回る可能性があります。
セクション5 — FSDとOptimusタイムラインへのDojoの影響
| マイルストーン | Dojoの貢献(推定) | Dojoなし(クラウドのみ) |
|---|---|---|
| FSD v14からv15への汎化の飛躍 | クラウドコスト制約なしにフルデータセットで継続的な再トレーニングを可能に(推定) | 技術的には可能だが同等のトレーニングスケールで2〜3倍コスト高(推定) |
| Optimusタスク汎化(10から50タスクへ) | Dojo容量がOptimus展開が生成するデータ規模での大規模人型ポリシートレーニングをサポート | 必要なトレーニングスケールでのクラウドH100可用性と時間あたりコストによりボトルネック |
| Optimus 5万台トレーニングサポート | 継続的なトレーニング容量として約5〜10 ExaPODが必要(推定) | 同等のコンピューティングでクラウド年間コスト5億ドル以上と推定(推定) |
| 外部コンピューティング製品としてのDojo | 稼働率が許せば2027〜2028年が潜在的なウィンドウ(推定) | N/A |
セクション6 — このシリーズについて
本記事はフィジカルAIベンチマークシリーズの第34回です。本記事はAIトレーニングインフラの次元を追加します:Teslaのコンピューティング戦略の核心にある自社構築vs.外部調達の決定、DojoとクラウドNVIDIAクラスターのアーキテクチャと経済性の比較、そして今後3〜5年間のFSDとOptimusトレーニング容量への影響。
注意事項: 本記事のすべてのコスト推定、パフォーマンス数値、タイムライン予測は、公開情報、アナリストのコメント、技術プレゼンテーションに基づく推定値です。投資推奨ではありません。投資判断を行う前に、自身のデューデリジェンスを実施し、認定ファイナンシャルアドバイザーに相談してください。
ソース
- Tesla Dojo スーパーコンピューター — Tesla AI ↗
- Tesla Dojo D1チップアーキテクチャ — Hot Chips 2021 Teslaプレゼンテーション ↗
- NVIDIA H100/B200 クラウド料金 — AWS/GCP ↗
- AI計算コストのトレンド — Epoch AI研究 ↗