Builder Daily

arXiv 2604.24763 · 2026-04-27

Tuna-2:pixel embedding 在多模態理解上贏過 vision encoder

Zhiheng Liu, Weiming Ren, Xiaoke Huang

原生統一多模態模型,影像直接用 patch embedding 編碼 — 無 VAE、無獨立 vision encoder。在規模化下細粒度感知獲勝。

arxiv.org/abs/2604.24763 ↗


Tuna-2 是原生統一多模態模型,影像直接用 patch embedding 編碼 — 無 VAE、無獨立 vision encoder — 在單一 pixel-space stack 中同時處理理解與生成。

Encoder-based 變體早期收斂快,但 Tuna-2 的 encoder-free 設計在規模化時勝出,尤其在細粒度感知,而在多模態 benchmark 上與 SOTA 持平。

實戰筆記(我的)

這是自 CLIP 以來定義 VLM 架構的「必須用預訓練 vision encoder」假設的第一個可信挑戰。若結果在更廣 eval 下站得住,下一代 vision-language 模型可能大幅簡化 — 一個 stack 而非兩個,沒有 encoder/decoder mismatch。

對開發者這主要是前瞻訊息。今天能拿走的:別再假設「vision encoder 選擇最重要」 — 前沿瓶頸可能正在移到別處。

請喝咖啡