arXiv 2604.24763 · 2026-04-27

Tuna-2：pixel embedding 在多模態理解上贏過 vision encoder

Zhiheng Liu, Weiming Ren, Xiaoke Huang

原生統一多模態模型，影像直接用 patch embedding 編碼 — 無 VAE、無獨立 vision encoder。在規模化下細粒度感知獲勝。

Tuna-2 是原生統一多模態模型，影像直接用 patch embedding 編碼 — 無 VAE、無獨立 vision encoder — 在單一 pixel-space stack 中同時處理理解與生成。

Encoder-based 變體早期收斂快，但 Tuna-2 的 encoder-free 設計在規模化時勝出，尤其在細粒度感知，而在多模態 benchmark 上與 SOTA 持平。

實戰筆記（我的）

這是自 CLIP 以來定義 VLM 架構的「必須用預訓練 vision encoder」假設的第一個可信挑戰。若結果在更廣 eval 下站得住，下一代 vision-language 模型可能大幅簡化 — 一個 stack 而非兩個，沒有 encoder/decoder mismatch。

對開發者這主要是前瞻訊息。今天能拿走的：別再假設「vision encoder 選擇最重要」 — 前沿瓶頸可能正在移到別處。