arXiv 2604.24763 · 2026-04-27

Tuna-2：pixel embedding 在多模态理解上赢过 vision encoder

Zhiheng Liu, Weiming Ren, Xiaoke Huang

原生统一多模态模型，图像直接用 patch embedding 编码 — 无 VAE、无独立 vision encoder。在规模化下细粒度感知获胜。

Tuna-2 是原生统一多模态模型，图像直接用 patch embedding 编码 — 无 VAE、无独立 vision encoder — 在单一 pixel-space stack 中同时处理理解与生成。

Encoder-based 变体早期收敛快，但 Tuna-2 的 encoder-free 设计在规模化时胜出，尤其在细粒度感知，而在多模态 benchmark 上与 SOTA 持平。

实战笔记（我的）

这是自 CLIP 以来定义 VLM 架构的「必须用预训练 vision encoder」假设的第一个可信挑战。若结果在更广 eval 下站得住，下一代 vision-language 模型可能大幅简化 — 一个 stack 而非两个，没有 encoder/decoder mismatch。

对开发者这主要是前瞻信息。今天能拿走的：别再假设「vision encoder 选择最重要」 — 前沿瓶颈可能正在移到别处。