Skip to content
AI-Daily-Builder

2026-06-18 views

Tesla Dojoスーパーコンピュータ — カスタムAIシリコンとFSD背後の演算スケーリング論

TeslaのカスタムDojo D1シリコンはFSDとOptimusのトレーニングを支える演算の核心 — より速いトレーニングスループットが自動運転を複利的に改善するという賭けだ。

Physical AIベンチマークシリーズ 第111回 — Tesla Dojoスーパーコンピュータ詳細解説:カスタムAIトレーニングシリコン、FSD背後の演算スケーリング論、そしてトレーニングスループットが自動運転の改善速度をどう決定するか

トレーニング演算は自動運転レースにおける隠れた鍵変数だ。誰もが介入率、ロボタクシーの展開、安全報告書——レースの可視化された出力——を注視している。しかしそれらの出力を支えるエンジンはトレーニング演算だ。企業がどれだけのデータを処理できるか、どれだけ速く実験を実行できるか、そして実際に車を運転するニューラルネットワークポリシーをどれだけ速く反復できるか。TeslaのDojoスーパーコンピュータは、この変数が非常に決定的であり、NVIDIAからGPU時間をレンタルしたりGoogleのTPUを使用したりするのではなく、カスタムシリコンをゼロから構築する価値があるという会社の賭けだ。

これはAV分野の他のすべての企業とは異なる戦略的姿勢だ。Waymoは汎用AIワークロード向けに設計されたチップ、Google TPUとNVIDIA GPUクラスターを使用している。Teslaは、FSDトレーニングワークロードが十分に特殊であり、トレーニング演算スタックを所有することの競争優位性が十分に大きいため、コスト、エンジニアリングの複雑さ、多年にわたるタイムラインにかかわらず、ビデオトレーニングに特化して最適化されたカスタムシリコンを構築する価値があると判断した。


第1節 — なぜトレーニング演算がFSDにとって重要なのか

トレーニング演算とFSDパフォーマンスの関係は、表面上は直感的ではない。FSDは各Tesla車両内のチップ——HW4車載コンピュータ——で動作し、そのチップが車を操舵するすべてのリアルタイム推論を実行する。DojoはHW4内にあるのではなく、データセンターにある。しかしDojoが行うこと——最終的にHW4にデプロイされるニューラルネットワークの重みをトレーニングすること——が、すべてのFSDバージョンの品質上限を決定する。

原則説明FSDへの示唆
スケーリング則ニューラルネットワークのパフォーマンスは、より多くの演算、より多くのデータ、より大きなモデルで予測可能に向上する(Chinchillaスケーリング則;OpenAIスケーリング論文)FSDがスケーリング則に従うならば、より多くのトレーニング演算 = より良い運転ポリシー——LLMがより多くの演算でより賢くなるのと同じ原理
ビデオは演算集約的生のカメラビデオ(Teslaの開示スペックによる1280x960 x 8カメラ x 36Hz)のトレーニングは膨大なデータ量を生成し、ビデオトークンは処理コストが高いFSD v12+はビデオでエンドツーエンドにトレーニングされており、1回のモデル反復トレーニングには数十億フレームの処理が必要
反復速度より速いトレーニング演算 = 単位時間あたりより多くの実験 = より速い改善サイクル10倍の実験を実行できるチームはより良いモデルアーキテクチャをより速く見つけられる
データフライホイール x 演算フライホイールTeslaのデータ優位性(600万台以上の車両)は、演算がデータ取り込み速度に追いつける場合にのみ複利効果を生む十分な演算がなければ、データフライホイールは減速し、収集されたデータは未処理のまま放置される
推論 vs トレーニングDojoはトレーニング用(モデルの重みを見つけるため);各Tesla車両はリアルタイムでモデルを実行するための車載HW4チップを使用して推論する2つの別々の演算問題:Dojo(大規模、集中型トレーニング)vs HW4(効率的、分散型推論)

スケーリング則の議論がDojoの論点の核心だ。これはLLMの世界で経験的に確立されている:GPT-4がGPT-3より優れているのは、OpenAIが根本的に異なるアーキテクチャを見つけたからではなく、より多くの演算でより多くのデータでより大きなモデルをトレーニングしたからだ。Teslaにとっての問題は、同じ法則が自動運転に当てはまるかどうか——より多くのビデオデータに対するより多くのトレーニング演算が確実により良い運転ポリシーを生成するかどうかだ。


第2節 — Dojo D1チップアーキテクチャ

Dojo D1チップはTeslaのカスタムシリコン戦略の原子だ。Teslaは2022年のAI Dayに主要仕様を開示した。アーキテクチャを理解するには、Teslaが何のために最適化しているかを理解する必要がある:汎用AI計算ではなく、特にビデオトレーニングワークロードのためだ。

仕様文脈
プロセスノードTSMC 7nm一部のNVIDIA A100の製造バッチと同じノード;最新ノードではないが、コスト/密度に最適化
チップあたりの演算能力~362 TFLOPS BF16(開示済み)NVIDIA A100(312 TFLOPS BF16)に匹敵;D1は帯域幅効率に最適化
オンチップメモリ50MB SRAM(開示済み)GPUデザインよりはるかに大きいSRAM;ビデオトレーニングのメモリ帯域幅ボトルネックを軽減
メモリ帯域幅トレーニングタイル内チップ間インターコネクト ~10 TB/s(開示済み)主要な差別化要因:D1チップはタイル内で非常に高い帯域幅で相互接続;NVLink相当のボトルネックを排除
タイル構造トレーニングタイルあたり25個のD1チップ;ExaPODあたり120個のトレーニングタイル(開示済み)ExaPOD:3,000個のD1チップ、~1.1 ExaFLOP BF16演算
ExaPOD仕様~1.1 ExaFLOP BF16(開示済み目標)1 ExaPOD = ~1 ExaFLOP;製造中の複数のExaPOD(推定)
主要設計哲学CPU-GPUメモリ階層のボトルネックを排除;D1は非常に高い帯域幅でチップが点対点通信する統合演算ファブリック従来のGPUトレーニングはCPU→GPUデータ転送とNVLink帯域幅によってボトルネックとなる;D1はビデオワークロードのためにこれを回避

50MBのオンチップSRAMという数字には特別な注意が必要だ。標準的なGPUアーキテクチャはDRAMを主要メモリプールとして使用する——汎用AIワークロードには十分速いが、隣接フレームを一緒に処理する必要がある大規模なビデオクリップのトレーニング時には根本的な帯域幅上限がある。D1のはるかに大きいオンチップSRAMは、より多くのデータを演算ユニットの近くに保持し、コストの高いオフチップメモリアクセスの頻度を減らす。


第3節 — Dojo vs NVIDIA GPUクラスター比較

Dojoを支持する根拠は、D1が絶対的な指標でH100より優れているということではない。NVIDIAのH100は成熟したソフトウェアエコシステムと広い適用性を持つ優れたシリコンだ。Dojoを支持する根拠は、垂直統合されたトレーニングスタック——チップ、ソフトウェア、トレーニングパイプライン、すべて1つのワークロードに最適化——を所有することが、1FLOPあたりの演算仕様が同等であっても、H100のレンタルでは複製できない戦略的優位性を生むということだ。

次元Tesla Dojo(D1 / ExaPOD)NVIDIA H100/H200クラスター
ハードウェア所有権カスタムシリコン;Teslaが完全スタックを所有(チップ→ソフトウェア→トレーニングパイプライン)サードパーティ;GPUごとに支払うか購入;NVIDIAがロードマップを管理
ビデオトレーニング効率ビデオに特化して最適化(大SRAM、高チップ間帯域幅);FSDワークロードに優位性(推定)汎用目的;トランスフォーマートレーニングに優れる;ビデオトレーニングは機能するが特化して最適化されていない
ソフトウェアスタックTesla独自;CUDA互換性なし;カスタムMLフレームワークが必要CUDAエコシステム;PyTorch / JAX / TFはすべて最適化されたCUDAバックエンドを持つ;膨大なツール
資本コスト非常に高い初期費用(カスタムシリコンファブ、パッケージング、インフラの構築)レンタルまたは購入;OpExフレンドリー;H100 ~$30K-$40K/台(推定)
柔軟性DojoはTeslaの特定ワークロードに最適化;他の用途への転用が困難H100クラスターはどんなワークロードでも実行可能;転用可能
スケール上限Testa自身の建設ペースに制限;ExaPOD製造速度NVIDIAは現在の需要水準でほぼ無制限にH100を供給可能(推定)
ベンダーリスクTeslaが供給を管理;ベンダー依存なしNVIDIAの価格設定、割り当て優先度、輸出規制に左右される
現在の容量複数のExaPODが稼働中;正確な容量は非開示;TeslaはDojoが製造トレーニングで使用中と述べている(推定)WaymoはGoogle TPU(Alphabet内部)+ NVIDIA GPU(推定)を使用

ソフトウェアスタックの問題はこの比較で最も過小評価されている要素だ。CUDAには30年のリードがある。すべての主要MLフレームワークは専門家チームによって維持された最適化されたCUDAバックエンドを持つ。TeslaがCUDA互換性のないカスタムシリコンを構築するという決定は、並列ソフトウェアスタックを構築・維持し、CUDAエコシステム外での作業を厭わないエンジニアを採用し、PyTorchコミュニティから継承するのではなくすべてのトレーニング最適化をゼロから実装することを意味する。これは膨大なソフトウェアコストであり、チップ仕様には現れない。


第4節 — HW4:エッジでの推論

Dojoがモデルをトレーニングする。HW4がモデルを実行する。2つの演算問題はデプロイメントパイプラインによって分離されている:トレーニングがモデルの重みを生成し、重みが圧縮されて推論用に最適化され、結果として得られたモデルがOTAアップデートを通じて車両に配信される。HW4が車が走行中にリアルタイムでモデルを実行する。

仕様HW4(Teslaの現在の車載チップ)HW3(前世代)
TOPS(毎秒兆演算)~720 TOPS(開示済み)144 TOPS
改善倍率HW3比 ~5倍
プロセスノードTSMC 4nm(推定)Samsung 14nm
対応カメラ最大8台のフル解像度カメラ8台のカメラ(同じ)
ネットワーク帯域幅イーサネットベースのセンサーネットワーク(旧設計のCANバスとの比較)CANバス
FSDバージョンHW4はFSD v12+エンドツーエンドに必要(推定);HW3は旧FSDバージョンを実行FSD v11まで実行(推定)
HW4フリート普及率2023年頃以降のすべての新型Tesla車両にはHW4が搭載;HW3フリートはまだ大きい(推定)HW3車両はアップグレードの課題——完全なFSD v12+の恩恵を受けるにはハードウェア改造が必要
コスト個別には非開示;車両製造コストの一部

HW3からHW4への移行は、AV業界のTeslaに特有ではない構造的課題を明らかにする:車載推論ハードウェアが車両が実行できるFSDバージョンを決定する。HW3車両はモデルがHW3がリアルタイムフレームレートで実行できる規模を超えているため、FSD v12+を全機能で実行できない(推定)。これは、HW3フリート全体——2023年頃以前に販売されたすべてのTesla——がDojoを動力源とするトレーニングの改善量にかかわらず、より古い、機能が低いFSDバージョンを実行していることを意味する。


第5節 — ベンチマーク信号としてのDojo

Physical AIベンチマークシリーズにとって、DojoはただのチップではなくTeslaの演算スケーリング論点が機能しているかを明らかにする観察可能な信号のセットだ。

信号観察対象重要な理由
ExaPOD数FSDをトレーニングしているExaPODが何個稼働しているか利用可能なトレーニング演算の直接的な代理;より多くのExaPOD = より速いモデル反復
トレーニング実行頻度Teslaがどれくらいの頻度で新しいFSDバージョンを出荷するかFSDアップデートのカデンス(週次/月次/四半期)はトレーニングスループットを反映する
介入率トレンド1,000マイルあたりの重大介入率の経時的変化Dojoのスケーリング則の論点が正しければ、演算がスケールするにつれて介入率は下がり続けるはずだ
Dojo対クラウドコストDojoが1FLOPあたりNVIDIA H100のレンタルより良いコストを提供するかどうかDojoがスケールでクラウドより高価であれば、カスタムシリコンの賭けは経済的に失敗
HW4フリート普及率Tesla FSDフリートにおけるHW4の割合HW4車両は最も高機能なFSDを入手;HW3車両は推論時に演算が制約される
Optimusトレーニング統合DojoがOptimusポリシー(汎用ロボット)のトレーニングにも使用されているかDojoがFSDとOptimusの両方をトレーニングする場合、演算割り当てが戦略的変数になる

最も実行可能な信号はFSDアップデートのカデンスだ。DojoがTeslaが主張するスケールでトレーニングスループットを生成しているなら、FSDモデルアップデートの頻度は測定可能なはずだ。週次アップデートは機能するトレーニングパイプラインと高スループットを示す。四半期ごとのアップデートは、トレーニングパイプラインがボトルネックであるか、デプロイサイクルが演算以外の何かによってゲートされていることを示唆する。


第6節 — 戦略的文脈:DojoがAV競争環境に意味すること

Dojo投資は孤立して評価することはできない。それはTeslaが競合他社に対してAVレースをどのように考えているかを明らかにする戦略的選択だ——そしてその考えはPhysical AI分野のすべての企業に示唆を持つ。

根本的な賭けは、自動運転はデータ収集問題や、センサー問題や、マッピング問題よりもトレーニング演算問題だということだ。Waymoは優れた地図、優れたセンサーフュージョン、そしてGoogleの演算リソースへのアクセスを持っている。しかしWaymoのトレーニングループはより遅い。なぜならデータ収集規模(数百台の車対数百万台)が根本的に小さいからだ。トレーニング演算とデータ量がFSD品質の主要決定因子であれば、Waymoのセンサー優位性は格差を埋めるには不十分だ。

Teslaの代替仮説——カメラだけの感知は十分なデータで十分な演算でトレーニングすればAVに使用できる——はこの信念のアーキテクチャ的表現だ。カメラだけの演算スケーリングトレーニングが、より少ないデータでトレーニングされたライダー補助システムを上回る運転ポリシーを生成するなら、Dojo投資は実証される。

注: 「(推定)」とラベル付けされた数字は、2026年半ばの公開情報に基づく方向性推定値だ。TeslaはDojo容量、ExaPOD数、トレーニング演算の詳細を完全には開示していない。この記事は投資アドバイスを構成しない。


ソース

タグ

チップ