arXiv 2604.24763 · 2026-04-27
Tuna-2:pixel embedding 在多模態理解上贏過 vision encoder
Zhiheng Liu, Weiming Ren, Xiaoke Huang
原生統一多模態模型,影像直接用 patch embedding 編碼 — 無 VAE、無獨立 vision encoder。在規模化下細粒度感知獲勝。
Tuna-2 是原生統一多模態模型,影像直接用 patch embedding 編碼 — 無 VAE、無獨立 vision encoder — 在單一 pixel-space stack 中同時處理理解與生成。
Encoder-based 變體早期收斂快,但 Tuna-2 的 encoder-free 設計在規模化時勝出,尤其在細粒度感知,而在多模態 benchmark 上與 SOTA 持平。
實戰筆記(我的)
這是自 CLIP 以來定義 VLM 架構的「必須用預訓練 vision encoder」假設的第一個可信挑戰。若結果在更廣 eval 下站得住,下一代 vision-language 模型可能大幅簡化 — 一個 stack 而非兩個,沒有 encoder/decoder mismatch。
對開發者這主要是前瞻訊息。今天能拿走的:別再假設「vision encoder 選擇最重要」 — 前沿瓶頸可能正在移到別處。