2026-04-25
テレオペデータエンジン — ALOHA-2 と GELLO が新しい学習コーパスである理由
エンボディド AI は両手操作データで律速されています。$35K の ALOHA-2 リグは 1 日 50 時間収集可能。$300 の GELLO は 100 倍安いが遅い。2026 年にテレオペファームを運用する実態を解説します。
言語の基盤モデルがオープン Web で律速されるなら、操作の基盤モデルは 両手テレオペ実演 で律速されます。「人の手がカップを取る」ための Common Crawl は存在しません — あるのは、人間オペレータが軌跡を 1 本ずつ収集したデータだけ。2 つのハードウェアプラットフォームが事実標準になっています。
ALOHA-2 — 両腕プロダクションリグ
Stanford の ALOHA-2 は(産業ロボティクスと比較して)低コストの両手テレオペプラットフォーム。リーダーアーム 2 本(人間が操る)とフォロワーアーム 2 本(「ロボット」)、高解像度の手首カメラと俯瞰シーンカメラ。1 リグあたり部品費は約 $35,000 で、これは本格的な操作研究の入場料となっています。
実際に得られるもの:高品質・低レイテンシの両手データに、同期画像、関節角、グリッパ状態。訓練されたオペレータは 1 リグあたり 1 日 6-8 時間の使用可能な実演を収集できます(生の収集時間はこれより多い;失敗試行を除外する必要があるため使用可能率が重要)。
2026 年公表の VLA 論文(RT-3、π0.5、GR00T N2)の多くは ALOHA-2 もしくは派生を微調整データに使用。ALOHA-2 のデータフォーマットは事実上の交換標準。
GELLO — $300 の代替
GELLO は巧妙なアイデア:高価なリーダーアームの代わりに、フォロワーアームの 3D プリント運動学レプリカと安いエンコーダを使用。GELLO モデルを手で動かすとフォロワーがミラーします。リグ 1 台あたり部品費 $300-500。データ品質は ALOHA-2 より低い(力フィードバックなし、精細運動の精度は劣る)が、スケールコストは 100 倍安価。
GELLO が適切:オペレータを数十人にスケールしたい場合、または操作タスクが単純(ピック&プレース、引き出し開閉)。不適切:手術精度のタスクや接触の多い操作(皮むき、切断、組立)。
Open X-Embodiment 2.0 データセットは GELLO 収集 約 30%、ALOHA-2 約 50%、残り 20% は産業ロボットの実演。
ラベリング危機
公的にはあまり議論されない部分:収集はもはやボトルネックではなく、ラベリングがボトルネック。1 台の ALOHA-2 リグは 1 日約 50 GB のマルチモーダルデータを生成。品質レビュー(失敗試行のフィルタ、タスク境界のセグメンテーション、サブタスクラベルの注釈)は収集 1 時間あたり 4-6 時間の人手を要します。
2026 年にテレオペファームを運用する多くのチームは、未ラベルデータの 5-10 倍のバックログを抱えています。本番運用での解決策:
- VLM-as-judge:GPT-5 や Claude Sonnet 4 が動画クリップの品質をレビュー。人手レビューを 60-70% 削減できるが、慎重なプロンプト設計と抜き取り監査が必要。
- 自己教師ありラベリング:潜在表現(V-JEPA-2 特徴)で軌跡をクラスタリングし、1 クラスタをラベル付けして伝播。反復タスクで有効、多様データでは破綻。
- ラベリングを減らす:サブタスク注釈をスキップし、生軌跡で end-to-end 学習。VLA が十分大きければ機能するが、解釈性を失う。
2026 年のコスト経済
今日操作研究ラボを始めるなら:
- ALOHA-2 1 台 + フルタイムオペレータ + パートタイムラベラー ≈ $250K/年。出力:年間約 1,500 時間の使用可能な実演。基盤 VLA を 2-3 専門タスクで微調整するのに十分。
- GELLO 5 リグ + オペレータ 5 人 ≈ $400K/年。出力:年間約 6,000 時間の幅広いがノイズの多いデータ。基盤モデル事前学習への貢献に良い。
- 既存データセットへのアクセス購入(Open X-Embodiment 2.0、RH20T、BridgeData V2) が合理的な出発点。ダウンロード $0 だが、皆同じデータで学習しているため競争上の堀は得られない。
実装ノート
- 操作タスクが接触力を含むなら GELLO から始めてはいけない。力フィードバックの欠如は 200 時間後まで明らかになりにくい形で噛みつく。
- オペレータ選抜は公に認められている以上に重要。熟練オペレータは新人の 3-5 倍の使用可能データを 1 時間に収集。それに応じた給与を。
- カメラ配置は ALOHA-2 セットアップで最も議論され、最も標準化されていない部分。手首カメラ + 俯瞰カメラが安全なデフォルト。
- 最速で成果を出す方法:Open X-Embodiment 3.0 にデータを投稿(投稿締切 2026 年 6 月)。あなたのデータは今後 2 年間、すべての VLA 論文で使用されます。
Q3 のウォッチリスト
- ALOHA-3(噂:手首可動域の改善、コスト半減目標)
- GELLO-2 オプション力フィードバックモジュール($600 アドオン)
- DeepMind RT-X テレオペリグ(産業グレード、予想 $80K)
- VLM を品質レビュアーとして使用するオープンソース・ラベリングパイプライン