arXiv 2604.24763 · 2026-04-27

Tuna-2：pixel embedding がマルチモーダル理解で vision encoder を凌駕

Zhiheng Liu, Weiming Ren, Xiaoke Huang

ネイティブな統一マルチモーダルモデル。画像は patch embedding で直接エンコードされ、VAE も独立した vision encoder も持たない。スケール時の細粒度知覚で勝利。

Tuna-2 はネイティブな統一マルチモーダルモデルで、画像は patch embedding で直接エンコードされます。VAE も独立した vision encoder も持たず、単一の pixel-space スタックで理解と生成を同時に処理します。

Encoder ベースのバリアントは初期収束が速い一方、Tuna-2 の encoder-free 設計はスケール時に勝利し、特に細粒度知覚で優れ、マルチモーダルベンチマークでは SOTA と互角を保ちました。

実装ノート（私見）

CLIP 以来 VLM アーキテクチャを規定してきた「事前学習済み vision encoder が不可欠」という前提に対する、最初の信頼に値する挑戦です。結果がより広い eval でも持ちこたえるなら、次世代の vision-language モデルは大幅に簡素化される可能性があります。スタックは 1 つで済み、encoder/decoder の不一致もなくなります。

開発者にとってこれは主に先読みの情報です。今日持ち帰れることは、「vision encoder の選択がもっとも重要」という前提を疑うこと。フロンティアのボトルネックは別の場所に移っているかもしれません。