2026-06-08

휴머노이드 로봇의 병목은 하드웨어가 아니다 — 데이터다. 그리고 중국은 유료 인간 영상으로 그것을 힘으로 밀어붙이고 있다

— 조회

6월 3일 보도는 JD.com 등이 휴머노이드를 학습시키기 위해 일반인에게 시간당 3달러를 주고 집안일을 촬영하게 하는 실태를 상세히 전한다. 진짜 피지컬 AI 경쟁은 학습 데이터를 둘러싼 것이며, 그 공급망이 산업화되고 있다.

무엇이 등장했나

올봄의 화려한 피지컬 AI 헤드라인은 하드웨어와 돈——공장 라인, 배치 계획, 수십억 달러 규모의 투자 라운드——에 관한 것이었다. 더 중요한 이야기는 더 조용하며, Rest of World의 6월 3일 보도에 나타났다. 즉, 휴머노이드 로봇을 위한 데이터 공급망이 산업화되고 있으며, 지금 이 순간 중국이 다른 누구도 따라오지 못하는 규모로 그것을 하고 있다는 것이다.

가장 분명한 사례가 JD.com이다. 이 회사는 쑤첸(Suqian) 지방정부와 협력해 2년에 걸쳐 1,000만 시간의 로봇 학습 데이터를 목표로 삼고 있는데——그 세부 구성이 중요하다. Gasgoo의 보도에 따르면, 이 계획은 1년 차에 실세계 인간 시나리오 영상 500만 시간을 앞당겨 투입하고, 2년 차에는 1,000만 시간을 넘기며, 그 위에 추가로 약 100만 시간의 로봇 본체 데이터를 얹는다. 이를 수집하기 위해 JD는 물류, 제조, 의료, 가사 서비스, 도시 운영에 걸친 100개 이상의 시나리오에서 10만 명이 넘는 내부 직원과 최대 50만 명의 외부 작업자를 동원할 것이라고 밝혔다.

빌더들이 곱씹어야 할 부분이 바로 그 수집 방법이다. 이것은 연구실의 값비싼 원격조작(teleoperation) 장비가 아니다. 헤드 카메라를 쓴 평범한 사람들이다. Rest of World는 **하루 6시간, 시간당 20위안(약 3달러)**에 집안일을 촬영하는 재택 작업자와, 선전(Shenzhen)에 본사를 둔 X Square Robot의 로봇이 옷 몇 점을 개고 신발을 정리하는 연습을 한 3시간짜리 가정 방문 세션에 **149위안(약 22달러)**을 지불한 주택 소유자를 묘사한다. 광둥(Guangdong)의 공장 노동자들은 라인에서의 손동작을 포착하기 위해 헤드 카메라에 손목 센서까지 착용한다.

왜 하드웨어가 아니라 데이터가 관문인가

이것은 체화된 AI(embodied AI)의 근본적인 비대칭성에 비추어 볼 때에만 말이 된다. MIT Technology Review가 2024년에 표현했듯이, 로봇에 필요한 데이터는 “GPT 같은 가장 진보한 AI 모델을 학습시키는 데 쓰이는 데이터——대부분 인터넷에서 긁어모은 텍스트, 이미지, 영상——보다 훨씬 더 구하기 어렵다.” 언어 모델은 열린 웹을 먹는다. 로봇 정책(policy)에는 동기화된 카메라 프레임, 관절 각도, 그리퍼 힘, 그리고 과제 맥락이 필요하며——이 모든 것은 실제 물리적 상호작용 도중에 기록되어야 한다. 그런 데이터는 인터넷 규모로는 그냥 존재하지 않으며, “실세계 데이터는 상대적으로 희소하고, 수집하는 데 훨씬 더 많은 시간, 노력, 값비싼 장비를 요구하는 경향이 있다.”

번역하자면: 범용 조작(manipulation) 정책에는 스크래핑만으로 도달할 수 없다. 누군가가 계측 장비를 단 채로 그 과제들을 수백만 번 물리적으로 수행해야 한다. 그 파이프라인을 가장 싸고 가장 넓게 세울 수 있는 자가 더 나은 모델을 갖는다.

그것은 최근의 하드웨어 이정표들을 다시 자리매김한다. 시간당 휴머노이드를 찍어내는 공장은 인상적이지만, 다양하고 과제 특화된 데이터가 없는 로봇은 값비싼 마네킹일 뿐이다. 배치와 데이터 수확은 같은 프로젝트다. 계측 장비를 단 노동자 한 명 한 명, 훈련장의 로봇 한 대 한 대가 데이터 생성 노드다.

처리량 계산

중국의 접근법은 본질적으로 노동력을 대량의 시연으로 전환하는 것이다. People’s Daily(4월 28일)는 스징산(Shijingshan) 훈련 센터——10,000제곱미터가 넘는 시설——에서 2025년 10월에 100대의 휴머노이드 로봇이 훈련을 시작했고, 각 로봇이 하루에 약 4시간의 학습 데이터를 생성한다고 보도했다. 2분 샘플링 간격으로, 운영자는 100대의 로봇이 옷 개기, 소포 분류, 바코드 스캔, 자물쇠 열기 같은 집안일에서 하루에 최소 12,000건의 데이터 수집 과제를 완료할 수 있다고 말한다.

쌓아 놓고 보면, 두 가지 수집 방식은 다음과 같다:

출처	운영자	속도 / 규모	비용 신호
가정 영상(자기중심 시점)	거주자, 헤드 카메라	1인당 약 6시간/일	약 $3/시 노동; 로봇 가정 방문 3시간당 약 $22
공장 캡처	라인 노동자 + 손목 센서	근무 시간 내내 지속	기존 임금 위에 얹힘
로봇 훈련장	100대, 계측 장비 장착	1대당 약 4시간/일; 약 12,000과제/일	고정 시설(10,000+ m²)
프로그램 목표(JD, 쑤첸)	내부 10만 + 외부 50만	2년에 1,000만 시간(1년 차 500만은 인간 영상)	보조금 지원, 정부 협력

이 수치들은 서로 다른 운영자들로부터 나온 것이라 하나의 깔끔한 총계로 합산해서는 안 되지만, 방향은 명백하다. 즉, 인간 영상 데이터가 하나의 원자재 투입물로 취급되고, 최저임금에 가까운 노동력으로 가격이 매겨지며, 수십만 명에 의해 병렬로 생산되고 있다는 것이다.

실무 노트

내가 조작(manipulation)에 닿는 무언가를 만들고 있다면, 데이터 수집을 모델의 각주처럼 취급하는 것을 그만둘 것이다. 내가 실제로 할 몇 가지:

모델이 아니라 데이터를 주요 예산 항목으로 잡아라. 여기서 싸고 확장 가능한 신호는 연구실 원격조작이 아니라 자기중심 시점의 인간 영상(헤드캠, 1인칭 손)이다. 깨끗한 원격조작 시연에만 돈을 쓰고 있다면, 남들이 도매로 사들이는 동안 당신은 소매가를 치르고 있는 것이다.
크로스-임바디먼트(이종 신체) 격차를 처음부터 설계에 반영하라. 인간 손 영상과 특정 그리퍼는 같은 형태(morphology)가 아니다. 이기는 팀은 “사람이 셔츠를 갠다”를 “이 로봇이 셔츠를 갠다”로 바꿔 주는 리타게팅/적응 레이어를 가진 팀일 것이다. 그것을 첫날부터 데이터 스키마에 새겨 넣어라(타임스탬프 동기화, 가능한 경우 힘, 일관된 카메라 내부 파라미터).
시간 수가 곧 역량이라고 가정하지 마라. 누군가가 저녁을 짓는 1,000만 시간은 당신의 과제 1,000만 시간이 아니다. 나는 거대한 범용 데이터 덩어리보다, 바로 그 배치를 겨냥해 범위가 좁고 라벨이 잘 달린 작은 세트에 더 무게를 두고, 범용 코퍼스는 사전학습용으로만 취급할 것이다.
동의와 출처(provenance) 측면을 주시하라. 사람들의 가정 내 영상이 곧 자산이다. 그것으로 학습한 제품을 출시한다면, 나중에 디스커버리(증거개시) 문제가 되기 전에 지금 깨끗한 라이선스와 출처를 확보해 두고 싶을 것이다.

간과된 관점

모두가 합성 데이터 대 실제 데이터를 논쟁하고 있다. 덜 논의되는 변수는 누가 그 노동력 파이프라인을 소유하는가이다. 이것이 한곳에 집중되는 이유는 모델의 돌파구가 아니다——“데이터 수집 동네”를 세우고, 그것을 지방정부로 보조하며, 사람들에게 시간당 몇 달러를 주고 자신의 일상생활에 계측 장비를 달게 할 수 있다는 것이다. 그것은 알고리즘상의 우위가 아니라 산업정책과 물류상의 우위이며, 서구 스타트업이 가격 면에서 그것을 복제하는 것은 또 다른 트랜스포머 아키텍처를 복제하는 것보다 훨씬 더 어렵다.

2차적 위험: 한 세대의 범용 로봇 정책이 결국 한 나라의 가정, 부엌, 공장, 매장 배치에 불균형하게 치우쳐 학습될 수 있다. 그것은 분포 편향(distributional bias)을 새겨 넣는다——100만 채의 중국 아파트를 보았지만 미국이나 유럽의 것은 거의 보지 못한 로봇은, 다른 곳에 배치되는 순간 조용히 성능이 떨어질 수 있고, 아무도 그것을 벤치마크 숫자에서 보지 못할 것이다. 그 파이프라인 바깥에 있는 빌더에게 해야 할 수는 인간 영상 수확에서 상대보다 더 많이 쓰는 것이 아니다. 그것은 당신이 출시해 들어가는 바로 그 환경을 위한, 범위가 좁고 고품질이며 현지에 뿌리내린 데이터셋을 소유하는 것——그리고 당신이 파인튜닝하는 기반 모델이 남의 거실을 사전확률(prior)로 조용히 들여오고 있지 않은지 확인하는 것이다.