Builder Daily

2026-05-03

フィジカル AI まとめ — 2026 Q2 のヒューマノイド基盤モデル

2026 Q2 には 4 つのヒューマノイド基盤モデルが実機デモを披露:NVIDIA GR00T N2、Tesla Optimus Gen 3、Figure 03、Physical Intelligence π0.5。Sim-to-Real のギャップは縮まっている — ただし遠隔操作データが豊富にある精緻な操作タスクに限る。

ヒューマノイドロボットは独自の「ChatGPT モーメント」を迎えつつある — ただしより遅く、混沌としており、データ量に制約されている。今四半期に実際にリリースされたものと、それが開発者に意味することは以下の通り。

注目すべき 4 つのリリース

1. NVIDIA GR00T N2 — 汎化ヒューマノイド基盤モデル

GR00T N2 は、RGB + 自己受容感覚 + 言語を入力とし、任意のヒューマノイドプラットフォームの関節空間アクションを出力する事前学習済み Transformer です。見出しの数字は 5 種類のロボット本体で 70+ タスクを zero-shot でこなしたこと。しかし実用的な数字は fine-tune 比率:新規タスクごとに必要なテレオペデータは約 30 分(ゼロから学習する場合は約 8 時間)。Isaac Lab と Jetson Thor 開発キットで提供。

2. Tesla Optimus Gen 3 — 垂直統合の論証

Gen 3 は重量を 57 kg から 48 kg へ削減し、手の DOF を 22 まで増やしました(Gen 2 は 11)。興味深いのはハードウェアではなく — Tesla が Optimus を、FSD V14 を駆動するのと同じ Dojo 学習済み視覚言語スタックで学習し始めたことです。彼らは「運転データのスケールが操作ポリシーへ複利的に移転する」と賭けています。懐疑派は「道を見る」と「ネジを締める」は全く異なるアクション分布だと指摘します。

3. Figure 03 — 商業デプロイ優先

Figure 03 は信頼性のために DOF を犠牲にしました:合計 28 DOF ですが、BMW Spartanburg 工場の固定部品ローディングタスクで 10,000+ 回試行で 95%+ の成功率。教訓:2026 Q2 の工場フロアでは「狭タスクの信頼性」が「汎化デモ」に勝る。Figure はドイツの 2 社の自動車メーカーと 5 桁台の受注残を発表しました。

4. Physical Intelligence π0.5 — データの濠

π0.5(π1 への半歩)は今四半期のオープンウェイトのサプライズです。Open X-Embodiment 2.0 データセット(1.2M 軌跡、35 種類のロボット本体)で学習され、GR00T N2 より約 6 倍小さいにもかかわらずベンチマークで匹敵。要点:エンボディドポリシーでは データの多様性がパラメータ数に勝ち始めている

開発者にとっての意味

Q3 のウォッチリスト


Sources

チップ