arXiv 2606.11854·2026-06-10 — 회 조회

ART: 강화학습으로 시각 소프트 토큰을 최적화해 가중치 업데이트 없이 동결된 멀티모달 LLM을 파인튜닝

Chudoba et al., Alyaev, Galuscakova, Wiktorski

ART는 모델 가중치가 아닌 시각 입력 토큰만 최적화해 동결된 멀티모달 LLM을 파인튜닝하며, vLLM 같은 사전 컴파일 추론 그래프에서 RL 기반 적응을 가능케 한다. 동결 백본의 시각 소프트 토큰을 강화 훈련하면 가중치 업데이트 없이 효과적인 태스크 적응이 가능하다.

arxiv.org/abs/2606.11854 ↗

논문이 하는 일

arXiv:2606.11854 (cs.CL, 2026년 6월 10일 제출)은 ART——Art-based Reinforcement Training——를 제안한다. 이는 모델 가중치를 일절 수정하지 않고 동결된 멀티모달 LLM(MLLM)을 새로운 태스크에 적응시키는 방법이다. 백본을 파인튜닝하는 대신, ART는 강화학습 목표를 사용해 시각 입력 토큰 임베딩——시각 인코더가 언어 모델에 진입하기 전에 생성하는 소프트 토큰——을 최적화한다.

핵심 동기는 고처리량 추론 엔진과의 호환성이다. vLLM 같은 현대적인 서빙 스택은 배포 시 언어 모델의 계산 그래프를 사전 컴파일한다(CUDA graph capture 등의 기법 사용). 가중치를 업데이트하는 파인튜닝은 이 사전 컴파일 그래프를 무효화하여 비용이 큰 재컴파일을 강제한다. ART는 가중치를 건드리지 않으므로 컴파일된 그래프가 유효하게 유지된다. RL 적응은 파라미터 공간이 아닌 입력 공간에서 이루어진다.

작동 방식

아키텍처는 세 가지 구성 요소로 이루어진다:

1. 동결된 MLLM 백본 — 언어 모델과 어텐션 레이어가 잠겨 있다. 훈련 중 이 레이어로 그라디언트가 흐르지 않는다. ART는 모델이 추론 그래프가 이미 컴파일된 상태로 배포되어 있다고 가정한다.

2. 시각 인코더 + 소프트 토큰 프로젝터 — 시각 인코더(ViT 또는 CLIP 기반 모델)가 입력 이미지를 처리해 패치 임베딩을 생성한다. 이 임베딩은 경량 프로젝터(MLP 어댑터)를 통해 언어 모델의 임베딩 공간으로 전달된다.

3. 학습 가능한 시각 소프트 토큰 퍼터베이션 — ART는 투영된 시각 토큰 위에 학습 가능한 퍼터베이션 레이어를 추가한다. 이 퍼터베이션은 RL(태스크 성능의 보상 신호 사용)로 최적화되어 시각 스트림에 태스크별 정보를 주입한다. 퍼터베이션 파라미터는 백본 대비 작아서 기본 모델을 수정하지 않고 추론 시 적용할 수 있다.

RL 훈련 목표는 올바른 태스크 출력을 생성하는 토큰 시퀀스에 보상을 주며, 퍼터베이션 레이어에만 적용되는 표준 REINFORCE 또는 PPO 스타일 업데이트를 사용한다.

배포에 중요한 이유

컴파일 그래프 유지가 핵심 통찰이다. 대형 MLLM을 프로덕션에 배포하려면 특정 GPU 타겟에 맞게 계산 그래프를 컴파일하는 데 상당한 사전 처리 시간(프론티어 규모 모델은 보통 10–30분)이 필요하다. 가중치 변경은 이를 무효화한다. 가중치를 수정하는 파인튜닝 방법——작은 어댑터 행렬을 추가하는 LoRA조차도——은 적응 후 전체 재컴파일이 필요하다. ART의 가중치 동결 방식이 의미하는 것:

적응이 배포 후 재컴파일 사이클 없이 이루어질 수 있다
여러 태스크를 서로 다른 시각 퍼터베이션으로 동일한 컴파일 백본에서 서빙할 수 있다
적응 파라미터가 요청별 또는 테넌트별로 교체할 수 있을 만큼 작다

멀티테넌트 추론 서빙(하나의 모델, 고객마다 수많은 파인튜닝된 “개성”)에서 이것은 의미 있는 아키텍처 장점이다.

성능

ART는 멀티모달 추론 벤치마크에서 효과적인 태스크별 적응을 달성하며, 시각 컨텍스트가 주요 태스크 구분 신호인 태스크에서 완전 파인튜닝 방식과 경쟁력 있는 정확도를 보고한다. 가장 강한 결과는 시각 입력이 문제별 컨텍스트를 전달해야 하는 영역(특정 분야 다이어그램 읽기, 특정 분야 검사 태스크 등)에서 나타나며, 일반적인 이미지 이해에서는 덜하다.

언어 모델의 사전 지식 자체가 변경되어야 하는 경우(순수 언어 태스크, 새로운 추론 체인이 필요한 태스크)에는 완전 파인튜닝보다 성능이 낮다. 이는 예상된 한계다: 입력 표현 최적화는 시각 도메인의 분포 이동만 보정할 수 있고, 백본의 지식을 업데이트할 수 없다.

실무자 노트

ART의 가치 제안은 이미 컴파일된 추론 그래프로 멀티모달 모델을 프로덕션에서 서빙하고 있으면서 배포 중단 없이 태스크별 적응을 추가하고 싶은 빌더에게 가장 뚜렷하다. 그것이 가능케 하는 패턴: 태스크 데이터에 오프라인으로 시각 퍼터베이션 파라미터 세트를 훈련하고, 서빙 인프라에 손대지 않고 기본 백본 + 퍼터베이션을 서빙한다. 표준 파인튜닝의 동등한 작업은 새로운 가중치로 새로운 배포를 요구한다.

솔직한 범위 한계: 이것은 유용한 서빙 최적화이지 범용 파인튜닝 대체제가 아니다. 태스크가 언어 모델이 새로운 사실적 지식이나 새로운 추론 패턴을 학습하도록 요구한다면——특정 시각 입력을 다르게 해석하도록 학습하는 것이 아니라——가중치 업데이트가 필요하다. ART는 “이 특정 시각 입력 분포를 추론하는 방법을 아는 모델이 해석할 수 있게 만들기” 도구이지, “이 모델에게 이전에 할 수 없었던 것을 가르치기” 도구가 아니다.

덜 주목받는 관점

논문의 “RL 파인튜닝” 프레이밍은 테스트 시 컴퓨팅 스케일링과의 관련성을 과소평가할 수 있다. 시각 소프트 토큰 퍼터베이션은 구조적으로 입력 레이어에서 모델에 추가적인 태스크 컨텍스트를 주입하는 방법이다. 동일한 메커니즘은 파인튜닝뿐만 아니라 테스트 시 탐색에도 사용될 수 있다: 추론 중 특정 입력에 RL을 실행해 그 단일 인스턴스의 모델 신뢰도나 태스크 보상을 최대화하도록 시각 퍼터베이션을 최적화한다. 이것은 ART를 추론 시 컴퓨팅 최적 시각 추론의 잠재적 빌딩 블록으로 만든다——토큰당이 아닌 어려운 예제당 더 많은 컴퓨팅을 소비하는 방식. 이 응용은 논문에서 논의되지 않지만 아키텍처에서 자연스럽게 도출된다.