Builder Daily

2026-04-25

遙控資料引擎——為何 ALOHA-2 與 GELLO 是新訓練語料庫

具身 AI 卡在雙手操作資料。$35K 的 ALOHA-2 每天可收集 50 小時。$300 的 GELLO 便宜 100 倍但較慢。本文說明 2026 年運作遙控示範資料工廠的實務現況。

語言基礎模型的瓶頸在開放網路爬蟲,操作基礎模型的瓶頸則是雙手遙控示範。沒有「人手拿杯子」的 Common Crawl,只有你一條一條人工蒐集出來的軌跡。兩個硬體平台已成事實標準。

ALOHA-2——雙臂量產規格

Stanford 的 ALOHA-2 是低成本(相對工業機器人)的雙手遙控平台。配置兩支由人手操控的引導臂、兩支跟隨臂(即「機器人」),加上高解析度腕部相機與俯瞰場景相機。單台零件成本約 $35,000,已成嚴肅操作研究的入場費。

實際買到的:高品質、低延遲的雙手資料,含同步影像、關節角度、夾爪狀態。受訓操作員每天每台可產出 6-8 小時可用示範(原始蒐集時間更高,重點是可用率,因為失敗嘗試需過濾)。

2026 年多數已發表 VLA 論文(RT-3、π0.5、GR00T N2)的微調資料都用 ALOHA-2 或衍生。ALOHA-2 資料格式已成事實交換標準。

GELLO——$300 的替代方案

GELLO 是個聰明點子:不用昂貴引導臂,改用 3D 列印的跟隨臂運動學複本加便宜編碼器。你用手移動 GELLO 模型,跟隨臂就鏡像跟著動。單台零件 $300-500。資料品質低於 ALOHA-2(無力回饋、精細運動精度差),但擴張成本便宜 100 倍。

GELLO 適合的場景:擴張到數十名操作員,或操作任務簡單(抓取放置、開抽屜)。不適合:手術級精度任務或接觸密集操作(剝皮、切削、組裝)。

Open X-Embodiment 2.0 資料集中 GELLO 蒐集約 30%、ALOHA-2 約 50%、其餘 20% 為工業機器人示範。

標註危機

很少公開討論的部分:蒐集已不再是瓶頸——標註才是。一台 ALOHA-2 每天產出約 50 GB 多模態資料。品質審查(過濾失敗嘗試、切分任務邊界、標註子任務)每蒐集 1 小時需要人工 4-6 小時。

2026 年運作遙控資料工廠的多數團隊有 5-10 倍未標註資料積壓。實務解法:

2026 年的成本經濟學

今天起步開操作研究實驗室:

實戰筆記

Q3 觀察清單


Sources

請喝咖啡