Builder Daily

arXiv 2604.24763 · 2026-04-27

Tuna-2:pixel embedding 在多模态理解上赢过 vision encoder

Zhiheng Liu, Weiming Ren, Xiaoke Huang

原生统一多模态模型,图像直接用 patch embedding 编码 — 无 VAE、无独立 vision encoder。在规模化下细粒度感知获胜。

arxiv.org/abs/2604.24763 ↗


Tuna-2 是原生统一多模态模型,图像直接用 patch embedding 编码 — 无 VAE、无独立 vision encoder — 在单一 pixel-space stack 中同时处理理解与生成。

Encoder-based 变体早期收敛快,但 Tuna-2 的 encoder-free 设计在规模化时胜出,尤其在细粒度感知,而在多模态 benchmark 上与 SOTA 持平。

实战笔记(我的)

这是自 CLIP 以来定义 VLM 架构的「必须用预训练 vision encoder」假设的第一个可信挑战。若结果在更广 eval 下站得住,下一代 vision-language 模型可能大幅简化 — 一个 stack 而非两个,没有 encoder/decoder mismatch。

对开发者这主要是前瞻信息。今天能拿走的:别再假设「vision encoder 选择最重要」 — 前沿瓶颈可能正在移到别处。

请喝咖啡