Builder Daily

2026-04-25

テレオペデータエンジン — ALOHA-2 と GELLO が新しい学習コーパスである理由

エンボディド AI は両手操作データで律速されています。$35K の ALOHA-2 リグは 1 日 50 時間収集可能。$300 の GELLO は 100 倍安いが遅い。2026 年にテレオペファームを運用する実態を解説します。

言語の基盤モデルがオープン Web で律速されるなら、操作の基盤モデルは 両手テレオペ実演 で律速されます。「人の手がカップを取る」ための Common Crawl は存在しません — あるのは、人間オペレータが軌跡を 1 本ずつ収集したデータだけ。2 つのハードウェアプラットフォームが事実標準になっています。

ALOHA-2 — 両腕プロダクションリグ

Stanford の ALOHA-2 は(産業ロボティクスと比較して)低コストの両手テレオペプラットフォーム。リーダーアーム 2 本(人間が操る)とフォロワーアーム 2 本(「ロボット」)、高解像度の手首カメラと俯瞰シーンカメラ。1 リグあたり部品費は約 $35,000 で、これは本格的な操作研究の入場料となっています。

実際に得られるもの:高品質・低レイテンシの両手データに、同期画像、関節角、グリッパ状態。訓練されたオペレータは 1 リグあたり 1 日 6-8 時間の使用可能な実演を収集できます(生の収集時間はこれより多い;失敗試行を除外する必要があるため使用可能率が重要)。

2026 年公表の VLA 論文(RT-3、π0.5、GR00T N2)の多くは ALOHA-2 もしくは派生を微調整データに使用。ALOHA-2 のデータフォーマットは事実上の交換標準。

GELLO — $300 の代替

GELLO は巧妙なアイデア:高価なリーダーアームの代わりに、フォロワーアームの 3D プリント運動学レプリカと安いエンコーダを使用。GELLO モデルを手で動かすとフォロワーがミラーします。リグ 1 台あたり部品費 $300-500。データ品質は ALOHA-2 より低い(力フィードバックなし、精細運動の精度は劣る)が、スケールコストは 100 倍安価。

GELLO が適切:オペレータを数十人にスケールしたい場合、または操作タスクが単純(ピック&プレース、引き出し開閉)。不適切:手術精度のタスクや接触の多い操作(皮むき、切断、組立)。

Open X-Embodiment 2.0 データセットは GELLO 収集 約 30%、ALOHA-2 約 50%、残り 20% は産業ロボットの実演。

ラベリング危機

公的にはあまり議論されない部分:収集はもはやボトルネックではなく、ラベリングがボトルネック。1 台の ALOHA-2 リグは 1 日約 50 GB のマルチモーダルデータを生成。品質レビュー(失敗試行のフィルタ、タスク境界のセグメンテーション、サブタスクラベルの注釈)は収集 1 時間あたり 4-6 時間の人手を要します。

2026 年にテレオペファームを運用する多くのチームは、未ラベルデータの 5-10 倍のバックログを抱えています。本番運用での解決策:

2026 年のコスト経済

今日操作研究ラボを始めるなら:

実装ノート

Q3 のウォッチリスト


Sources

チップ