arXiv 2604.24763 · 2026-04-27

Tuna-2: pixel 임베딩이 멀티모달 이해에서 vision encoder를 이긴다

Zhiheng Liu, Weiming Ren, Xiaoke Huang

네이티브 통합 멀티모달 모델로, 이미지를 patch 임베딩으로 직접 인코딩합니다. VAE나 별도의 vision encoder가 없습니다. 스케일 업 시 세분화 인지에서 우세를 보입니다.

Tuna-2는 네이티브 통합 멀티모달 모델로, 이미지를 patch 임베딩으로 직접 인코딩합니다. VAE도 없고 별도의 vision encoder도 없습니다. 단일 pixel-space 스택에서 이해와 생성을 동시에 처리합니다.

Encoder 기반 변형은 초기에 더 빠르게 수렴하지만, Tuna-2의 encoder-free 설계는 스케일이 커질수록 우세하며, 특히 세분화 인지에서 강점을 보이고 멀티모달 벤치마크에서 SOTA와 동등한 성능을 보입니다.

실전 노트(개인적인)

CLIP 이래로 VLM 아키텍처를 정의해 온 “사전 학습된 vision encoder를 반드시 사용해야 한다”는 가정에 대한 첫 번째 신뢰할 만한 도전입니다. 결과가 더 넓은 eval에서 견디면, 차세대 vision-language 모델은 크게 단순해질 수 있습니다. 두 개가 아닌 하나의 스택, encoder/decoder 미스매치 없음.

개발자에게는 주로 미래 지향 정보입니다. 오늘 가져갈 수 있는 것은, “vision encoder 선택이 가장 중요하다”는 가정을 더 이상 하지 마세요. 프런티어 병목이 다른 곳으로 이동하고 있을 수 있습니다.