2026-05-03

フィジカル AI まとめ — 2026 Q2 のヒューマノイド基盤モデル

2026 Q2 には 4 つのヒューマノイド基盤モデルが実機デモを披露：NVIDIA GR00T N2、Tesla Optimus Gen 3、Figure 03、Physical Intelligence π0.5。Sim-to-Real のギャップは縮まっている — ただし遠隔操作データが豊富にある精緻な操作タスクに限る。

ヒューマノイドロボットは独自の「ChatGPT モーメント」を迎えつつある — ただしより遅く、混沌としており、データ量に制約されている。今四半期に実際にリリースされたものと、それが開発者に意味することは以下の通り。

注目すべき 4 つのリリース

1. NVIDIA GR00T N2 — 汎化ヒューマノイド基盤モデル

GR00T N2 は、RGB + 自己受容感覚 + 言語を入力とし、任意のヒューマノイドプラットフォームの関節空間アクションを出力する事前学習済み Transformer です。見出しの数字は 5 種類のロボット本体で 70+ タスクを zero-shot でこなしたこと。しかし実用的な数字は fine-tune 比率：新規タスクごとに必要なテレオペデータは約 30 分（ゼロから学習する場合は約 8 時間）。Isaac Lab と Jetson Thor 開発キットで提供。

2. Tesla Optimus Gen 3 — 垂直統合の論証

Gen 3 は重量を 57 kg から 48 kg へ削減し、手の DOF を 22 まで増やしました（Gen 2 は 11）。興味深いのはハードウェアではなく — Tesla が Optimus を、FSD V14 を駆動するのと同じ Dojo 学習済み視覚言語スタックで学習し始めたことです。彼らは「運転データのスケールが操作ポリシーへ複利的に移転する」と賭けています。懐疑派は「道を見る」と「ネジを締める」は全く異なるアクション分布だと指摘します。

3. Figure 03 — 商業デプロイ優先

Figure 03 は信頼性のために DOF を犠牲にしました：合計 28 DOF ですが、BMW Spartanburg 工場の固定部品ローディングタスクで 10,000+ 回試行で 95%+ の成功率。教訓：2026 Q2 の工場フロアでは「狭タスクの信頼性」が「汎化デモ」に勝る。Figure はドイツの 2 社の自動車メーカーと 5 桁台の受注残を発表しました。

4. Physical Intelligence π0.5 — データの濠

π0.5（π1 への半歩）は今四半期のオープンウェイトのサプライズです。Open X-Embodiment 2.0 データセット（1.2M 軌跡、35 種類のロボット本体）で学習され、GR00T N2 より約 6 倍小さいにもかかわらずベンチマークで匹敵。要点：エンボディドポリシーでは データの多様性がパラメータ数に勝ち始めている。

開発者にとっての意味

Sim-to-Real は精緻な操作タスクで縮まっているが、ロコモーションでは行き詰まっている。 新規物体のピック&プレース：OK。凹凸地形での歩行：プラットフォームごとに手動調整が必要。
テレオペデータが新しい学習コーパス。 ALOHA-2 リグ（$35K）はラボの標準セットアップに。カスタムスキルを学習するなら、タスクごとにテレオペ約 50 時間を見込んでおく。
推論レイテンシがタスク複雑度を制限する。 Jetson Thor 上の GR00T N2 推論は 30 Hz で操作には十分だが、リアクティブな障害物回避には遅い。ハイブリッドスタック（高速ローレベル + 低速 VLA）が支配的。
デプロイのボトルネックは能力ではなく安全認証。 上記 4 プラットフォームはいずれも今日時点で有用な仕事ができる；ISO 10218 + ISO/TS 15066 を通すことが収益のゲートです。

Q3 のウォッチリスト

オープンウェイトの GR00T 派生版（噂）
action-chunking transformer アーキテクチャを採用した π1 のリリース
Tesla 内部工場以外での Optimus 初の公開顧客
Boston Dynamics の電動 Atlas 商業プログラム（油圧式 Atlas は引退）