2026-04-25

テレオペデータエンジン — ALOHA-2 と GELLO が新しい学習コーパスである理由

エンボディド AI は両手操作データで律速されています。$35K の ALOHA-2 リグは 1 日 50 時間収集可能。$300 の GELLO は 100 倍安いが遅い。2026 年にテレオペファームを運用する実態を解説します。

言語の基盤モデルがオープン Web で律速されるなら、操作の基盤モデルは 両手テレオペ実演 で律速されます。「人の手がカップを取る」ための Common Crawl は存在しません — あるのは、人間オペレータが軌跡を 1 本ずつ収集したデータだけ。2 つのハードウェアプラットフォームが事実標準になっています。

ALOHA-2 — 両腕プロダクションリグ

Stanford の ALOHA-2 は（産業ロボティクスと比較して）低コストの両手テレオペプラットフォーム。リーダーアーム 2 本（人間が操る）とフォロワーアーム 2 本（「ロボット」）、高解像度の手首カメラと俯瞰シーンカメラ。1 リグあたり部品費は約 $35,000 で、これは本格的な操作研究の入場料となっています。

実際に得られるもの：高品質・低レイテンシの両手データに、同期画像、関節角、グリッパ状態。訓練されたオペレータは 1 リグあたり 1 日 6-8 時間の使用可能な実演を収集できます（生の収集時間はこれより多い；失敗試行を除外する必要があるため使用可能率が重要）。

2026 年公表の VLA 論文（RT-3、π0.5、GR00T N2）の多くは ALOHA-2 もしくは派生を微調整データに使用。ALOHA-2 のデータフォーマットは事実上の交換標準。

GELLO — $300 の代替

GELLO は巧妙なアイデア：高価なリーダーアームの代わりに、フォロワーアームの 3D プリント運動学レプリカと安いエンコーダを使用。GELLO モデルを手で動かすとフォロワーがミラーします。リグ 1 台あたり部品費 $300-500。データ品質は ALOHA-2 より低い（力フィードバックなし、精細運動の精度は劣る）が、スケールコストは 100 倍安価。

GELLO が適切：オペレータを数十人にスケールしたい場合、または操作タスクが単純（ピック&プレース、引き出し開閉）。不適切：手術精度のタスクや接触の多い操作（皮むき、切断、組立）。

Open X-Embodiment 2.0 データセットは GELLO 収集約 30%、ALOHA-2 約 50%、残り 20% は産業ロボットの実演。

ラベリング危機

公的にはあまり議論されない部分：収集はもはやボトルネックではなく、ラベリングがボトルネック。1 台の ALOHA-2 リグは 1 日約 50 GB のマルチモーダルデータを生成。品質レビュー（失敗試行のフィルタ、タスク境界のセグメンテーション、サブタスクラベルの注釈）は収集 1 時間あたり 4-6 時間の人手を要します。

2026 年にテレオペファームを運用する多くのチームは、未ラベルデータの 5-10 倍のバックログを抱えています。本番運用での解決策：

VLM-as-judge：GPT-5 や Claude Sonnet 4 が動画クリップの品質をレビュー。人手レビューを 60-70% 削減できるが、慎重なプロンプト設計と抜き取り監査が必要。
自己教師ありラベリング：潜在表現（V-JEPA-2 特徴）で軌跡をクラスタリングし、1 クラスタをラベル付けして伝播。反復タスクで有効、多様データでは破綻。
ラベリングを減らす：サブタスク注釈をスキップし、生軌跡で end-to-end 学習。VLA が十分大きければ機能するが、解釈性を失う。

2026 年のコスト経済

今日操作研究ラボを始めるなら：

ALOHA-2 1 台 + フルタイムオペレータ + パートタイムラベラー ≈ $250K/年。出力：年間約 1,500 時間の使用可能な実演。基盤 VLA を 2-3 専門タスクで微調整するのに十分。
GELLO 5 リグ + オペレータ 5 人 ≈ $400K/年。出力：年間約 6,000 時間の幅広いがノイズの多いデータ。基盤モデル事前学習への貢献に良い。
既存データセットへのアクセス購入（Open X-Embodiment 2.0、RH20T、BridgeData V2） が合理的な出発点。ダウンロード $0 だが、皆同じデータで学習しているため競争上の堀は得られない。

実装ノート

操作タスクが接触力を含むなら GELLO から始めてはいけない。力フィードバックの欠如は 200 時間後まで明らかになりにくい形で噛みつく。
オペレータ選抜は公に認められている以上に重要。熟練オペレータは新人の 3-5 倍の使用可能データを 1 時間に収集。それに応じた給与を。
カメラ配置は ALOHA-2 セットアップで最も議論され、最も標準化されていない部分。手首カメラ + 俯瞰カメラが安全なデフォルト。
最速で成果を出す方法：Open X-Embodiment 3.0 にデータを投稿（投稿締切 2026 年 6 月）。あなたのデータは今後 2 年間、すべての VLA 論文で使用されます。

Q3 のウォッチリスト

ALOHA-3（噂：手首可動域の改善、コスト半減目標）
GELLO-2 オプション力フィードバックモジュール（$600 アドオン）
DeepMind RT-X テレオペリグ（産業グレード、予想 $80K）
VLM を品質レビュアーとして使用するオープンソース・ラベリングパイプライン