arXiv 2604.24763 · 2026-04-27
Tuna-2:pixel embedding 在多模态理解上赢过 vision encoder
Zhiheng Liu, Weiming Ren, Xiaoke Huang
原生统一多模态模型,图像直接用 patch embedding 编码 — 无 VAE、无独立 vision encoder。在规模化下细粒度感知获胜。
Tuna-2 是原生统一多模态模型,图像直接用 patch embedding 编码 — 无 VAE、无独立 vision encoder — 在单一 pixel-space stack 中同时处理理解与生成。
Encoder-based 变体早期收敛快,但 Tuna-2 的 encoder-free 设计在规模化时胜出,尤其在细粒度感知,而在多模态 benchmark 上与 SOTA 持平。
实战笔记(我的)
这是自 CLIP 以来定义 VLM 架构的「必须用预训练 vision encoder」假设的第一个可信挑战。若结果在更广 eval 下站得住,下一代 vision-language 模型可能大幅简化 — 一个 stack 而非两个,没有 encoder/decoder mismatch。
对开发者这主要是前瞻信息。今天能拿走的:别再假设「vision encoder 选择最重要」 — 前沿瓶颈可能正在移到别处。