2026-05-03
フィジカル AI まとめ — 2026 Q2 のヒューマノイド基盤モデル
2026 Q2 には 4 つのヒューマノイド基盤モデルが実機デモを披露:NVIDIA GR00T N2、Tesla Optimus Gen 3、Figure 03、Physical Intelligence π0.5。Sim-to-Real のギャップは縮まっている — ただし遠隔操作データが豊富にある精緻な操作タスクに限る。
ヒューマノイドロボットは独自の「ChatGPT モーメント」を迎えつつある — ただしより遅く、混沌としており、データ量に制約されている。今四半期に実際にリリースされたものと、それが開発者に意味することは以下の通り。
注目すべき 4 つのリリース
1. NVIDIA GR00T N2 — 汎化ヒューマノイド基盤モデル
GR00T N2 は、RGB + 自己受容感覚 + 言語を入力とし、任意のヒューマノイドプラットフォームの関節空間アクションを出力する事前学習済み Transformer です。見出しの数字は 5 種類のロボット本体で 70+ タスクを zero-shot でこなしたこと。しかし実用的な数字は fine-tune 比率:新規タスクごとに必要なテレオペデータは約 30 分(ゼロから学習する場合は約 8 時間)。Isaac Lab と Jetson Thor 開発キットで提供。
2. Tesla Optimus Gen 3 — 垂直統合の論証
Gen 3 は重量を 57 kg から 48 kg へ削減し、手の DOF を 22 まで増やしました(Gen 2 は 11)。興味深いのはハードウェアではなく — Tesla が Optimus を、FSD V14 を駆動するのと同じ Dojo 学習済み視覚言語スタックで学習し始めたことです。彼らは「運転データのスケールが操作ポリシーへ複利的に移転する」と賭けています。懐疑派は「道を見る」と「ネジを締める」は全く異なるアクション分布だと指摘します。
3. Figure 03 — 商業デプロイ優先
Figure 03 は信頼性のために DOF を犠牲にしました:合計 28 DOF ですが、BMW Spartanburg 工場の固定部品ローディングタスクで 10,000+ 回試行で 95%+ の成功率。教訓:2026 Q2 の工場フロアでは「狭タスクの信頼性」が「汎化デモ」に勝る。Figure はドイツの 2 社の自動車メーカーと 5 桁台の受注残を発表しました。
4. Physical Intelligence π0.5 — データの濠
π0.5(π1 への半歩)は今四半期のオープンウェイトのサプライズです。Open X-Embodiment 2.0 データセット(1.2M 軌跡、35 種類のロボット本体)で学習され、GR00T N2 より約 6 倍小さいにもかかわらずベンチマークで匹敵。要点:エンボディドポリシーでは データの多様性がパラメータ数に勝ち始めている。
開発者にとっての意味
- Sim-to-Real は精緻な操作タスクで縮まっているが、ロコモーションでは行き詰まっている。 新規物体のピック&プレース:OK。凹凸地形での歩行:プラットフォームごとに手動調整が必要。
- テレオペデータが新しい学習コーパス。 ALOHA-2 リグ($35K)はラボの標準セットアップに。カスタムスキルを学習するなら、タスクごとにテレオペ約 50 時間を見込んでおく。
- 推論レイテンシがタスク複雑度を制限する。 Jetson Thor 上の GR00T N2 推論は 30 Hz で操作には十分だが、リアクティブな障害物回避には遅い。ハイブリッドスタック(高速ローレベル + 低速 VLA)が支配的。
- デプロイのボトルネックは能力ではなく安全認証。 上記 4 プラットフォームはいずれも今日時点で有用な仕事ができる;ISO 10218 + ISO/TS 15066 を通すことが収益のゲートです。
Q3 のウォッチリスト
- オープンウェイトの GR00T 派生版(噂)
- action-chunking transformer アーキテクチャを採用した π1 のリリース
- Tesla 内部工場以外での Optimus 初の公開顧客
- Boston Dynamics の電動 Atlas 商業プログラム(油圧式 Atlas は引退)