2026-04-25
텔레오퍼레이션 데이터 엔진 — ALOHA-2 와 GELLO 가 새로운 학습 코퍼스인 이유
임바디드 AI 는 양손 조작 데이터로 막혀 있습니다. $35K ALOHA-2 리그는 하루 50 시간 수집 가능. $300 GELLO 는 100 배 저렴하지만 느립니다. 2026 년 텔레옵 팜 운영의 실제 현실을 정리합니다.
언어 파운데이션 모델이 오픈 웹에서 막힌다면, 조작 파운데이션 모델은 양손 텔레옵 시연 에서 막힙니다. “사람 손이 컵을 집는” 데 대한 Common Crawl 은 없습니다. 한 번에 하나씩 인간 오퍼레이터가 수집한 궤적뿐. 두 하드웨어 플랫폼이 사실 표준이 되었습니다.
ALOHA-2 — 양팔 프로덕션 리그
Stanford 의 ALOHA-2 는 (산업용 로보틱스 대비) 저비용 양손 텔레오퍼레이션 플랫폼입니다. 두 개의 리더 암 (사람이 조작) 과 두 개의 팔로워 암 (“로봇”) 에 고해상도 손목 카메라와 탑다운 장면 카메라가 추가됩니다. 리그당 부품비는 약 $35,000 이며, 이는 진지한 조작 연구의 입장료가 되었습니다.
ALOHA-2 가 실제로 제공하는 것: 동기화된 이미지, 관절 각도, 그리퍼 상태가 포함된 고품질, 저지연 양손 데이터. 훈련된 오퍼레이터는 리그당 하루 6-8 시간의 사용 가능한 시연을 수집할 수 있습니다 (원시 수집 시간은 더 높음; 실패 시도를 필터링해야 하므로 사용 가능률이 중요).
2026 년에 발표된 대부분의 VLA 논문 (RT-3, π0.5, GR00T N2) 은 미세조정 데이터에 ALOHA-2 또는 파생을 사용했습니다. ALOHA-2 데이터 형식은 사실상의 교환 표준입니다.
GELLO — $300 의 대안
GELLO 는 영리한 아이디어: 비싼 리더 암 대신 팔로워 암의 3D 프린트된 운동학 복제와 저렴한 인코더를 사용. 손으로 GELLO 모델을 움직이면 팔로워가 미러링합니다. 리그당 부품비 $300-500. 데이터 품질은 ALOHA-2 보다 낮음 (힘 피드백 없음, 정밀 운동 정확도 낮음) 이지만 스케일 비용은 100 배 저렴.
GELLO 가 적합: 수십 명의 오퍼레이터로 스케일링하거나 조작 작업이 단순할 때 (픽 앤 플레이스, 서랍 열기). 부적합: 외과 정밀 작업 또는 접촉이 많은 조작 (껍질 벗기기, 절단, 조립).
Open X-Embodiment 2.0 데이터셋은 GELLO 수집 약 30%, ALOHA-2 약 50%, 나머지 20% 는 산업 로봇 데모.
라벨링 위기
공개적으로 거의 논의되지 않는 부분: 수집은 더 이상 병목이 아니며, 라벨링이 병목. 단일 ALOHA-2 리그는 하루 약 50 GB 의 멀티모달 데이터를 생성. 품질 검토 (실패 시도 필터링, 작업 경계 분할, 서브태스크 라벨 주석) 는 수집 1 시간당 4-6 시간의 사람 시간이 필요.
2026 년에 텔레옵 팜을 운영하는 대부분의 팀은 라벨링되지 않은 데이터의 5-10 배 백로그를 가지고 있습니다. 프로덕션 솔루션:
- VLM-as-judge: GPT-5 또는 Claude Sonnet 4 가 비디오 클립의 품질을 검토. 사람 검토 시간을 60-70% 줄이지만 신중한 프롬프트 엔지니어링과 스팟 체크 감사가 필요.
- 자기 지도 라벨링: 잠재 표현 (V-JEPA-2 특징) 으로 궤적을 클러스터링하고, 한 클러스터를 라벨링하고 전파. 반복 작업에 효과적; 다양한 데이터에서는 깨짐.
- 그냥 덜 라벨링하기: 서브태스크 주석을 건너뛰고 원시 궤적에서 end-to-end 학습. VLA 가 충분히 크면 작동; 해석 가능성을 잃음.
2026 년의 비용 경제학
오늘 조작 연구실을 시작한다면:
- ALOHA-2 리그 1 대 + 풀타임 오퍼레이터 + 파트타임 라벨러 ≈ $250K/년. 출력: 연간 ~1,500 시간의 사용 가능한 시연. 베이스 VLA 를 2-3 개 전문 작업에서 미세조정하기에 충분.
- 5 개 GELLO 리그 + 5 명 오퍼레이터 ≈ $400K/년. 출력: 연간 ~6,000 시간의 더 광범위하지만 노이즈가 많은 데이터. 파운데이션 모델 사전학습 기여에 적합.
- 기존 데이터셋 액세스 구매 (Open X-Embodiment 2.0, RH20T, BridgeData V2) 는 합리적인 출발점. 다운로드 $0 이지만, 모두가 같은 데이터로 학습하므로 경쟁 해자를 얻지 못합니다.
실전 노트
- 조작 작업이 접촉 힘을 포함하면 GELLO 로 시작하지 마세요. 힘 피드백 부재의 고통은 200 시간 후까지 명확하지 않은 방식으로 물립니다.
- 오퍼레이터 선발은 공공연히 인정되는 것보다 더 중요. 숙련된 오퍼레이터는 신참보다 시간당 3-5 배 더 많은 사용 가능 데이터를 수집. 그에 맞게 급여를 책정.
- 카메라 배치는 ALOHA-2 셋업에서 가장 논쟁적이고 가장 표준화되지 않은 부분. 손목 카메라 + 탑다운 카메라가 안전한 기본값.
- 빠르게 임팩트를 내는 방법: Open X-Embodiment 3.0 에 데이터 기여 (제출 마감 2026 년 6 월). 당신의 데이터는 향후 2 년 동안 모든 VLA 논문에서 사용됩니다.
Q3 관전 포인트
- ALOHA-3 (소문: 더 나은 손목 가동 범위, 절반 비용 목표)
- GELLO-2 옵션 힘 피드백 모듈 ($600 애드온)
- DeepMind RT-X 텔레옵 리그 (산업급, 예상 $80K)
- VLM 을 품질 검토자로 사용하는 오픈소스 라벨링 파이프라인