arXiv 2606.11854·2026-06-10 — 回閲覧

ART：強化学習で視覚ソフトトークンを最適化し、重み更新なしで凍結マルチモーダルLLMをファインチューニング

Chudoba et al., Alyaev, Galuscakova, Wiktorski

ARTはモデル重みではなく視覚入力トークンのみを最適化することで凍結マルチモーダルLLMをファインチューニングし、vLLMのようなコンパイル済み推論グラフ上でRLベースの適応を可能にする。凍結バックボーン上の視覚ソフトトークンの強化訓練により、重み更新なしで効果的な適応を実現する。

arxiv.org/abs/2606.11854 ↗

論文の内容

arXiv:2606.11854（cs.CL、2026年6月10日投稿）はART——Art-based Reinforcement Training——を提案する。これはモデルの重みを一切変更せずに、凍結したマルチモーダルLLM（MLLM）を新しいタスクに適応させる手法だ。バックボーンをファインチューニングする代わりに、ARTは強化学習目標を使って視覚入力トークン埋め込み——視覚エンコーダが言語モデルに入る前に生成するソフトトークン——を最適化する。

核心的な動機は高スループット推論エンジンとの互換性だ。vLLMなどの現代的なサービングスタックは、デプロイ時に（CUDA graph captureなどの技術を使って）言語モデルの計算グラフをコンパイルする。重みを更新するファインチューニングはこれらのコンパイル済みグラフを無効化し、高コストな再コンパイルを強いる。ARTは重みに触れないため、コンパイル済みグラフは有効のまま保たれる。RL適応は入力空間で行われ、パラメータ空間では行われない。

仕組み

アーキテクチャは3つのコンポーネントで構成される：

1. 凍結されたMLLMバックボーン — 言語モデルとその注意層はロックされている。訓練中はこれらの層に勾配は流れない。ARTはモデルが推論グラフをコンパイル済みの状態でデプロイされていることを前提とする。

2. 視覚エンコーダ + ソフトトークンプロジェクタ — 視覚エンコーダ（ViTやCLIPベースのモデルなど）は入力画像を通常通り処理してパッチ埋め込みを生成する。これらの埋め込みは軽量なプロジェクタ（MLPアダプタ）を通じて言語モデルの埋め込み空間に入る。

3. 学習可能な視覚ソフトトークン摂動 — ARTは投影された視覚トークンの上に学習可能な摂動層を追加する。これらの摂動はRL（タスク性能からの報酬シグナルを使用）によって最適化され、視覚ストリームにタスク固有の情報を注入する。摂動パラメータはバックボーンに比べて小さく、ベースモデルを変更せずに推論時に適用できる。

RL訓練目標は正しいタスク出力を生成するトークンシーケンスに報酬を与え、摂動層のみに適用される標準的なREINFORCEまたはPPOスタイルの更新を使用する。

デプロイメントへの意味

コンパイル済みグラフの保持が核心的なインサイトだ。 大型MLLMを本番環境にデプロイするには、特定のGPUターゲット向けに計算グラフをコンパイルするための相当な前処理時間（フロンティア規模のモデルでは通常10–30分）が必要だ。重みの変更はこれを無効化する。重みを変更するファインチューニング手法——小さなアダプタ行列を追加するLoRAでさえ——は適応後に完全な再コンパイルを必要とする。ARTの重み凍結アプローチが意味するもの：

適応はデプロイ後に再コンパイルサイクルなしで実行できる
複数のタスクを、異なる視覚摂動で同じコンパイル済みバックボーンから提供できる
適応パラメータはリクエストごとまたはテナントごとに切り替えられるほど小さい

マルチテナント推論サービング（1つのモデル、顧客ごとに多数のファインチューニングされた「個性」）において、これは意義のあるアーキテクチャ上の優位性だ。

性能

ARTはマルチモーダル推論ベンチマークで効果的なタスク固有の適応を達成し、視覚コンテキストが主要なタスク識別シグナルであるタスクでは完全ファインチューニングアプローチと競争的な精度を報告している。最も強い結果は、視覚入力が問題固有のコンテキストを運ぶ必要がある領域（特定分野の図表読解、特定分野の検査タスクなど）で現れる。

言語モデルの事前知識自体を変更する必要があるケース（純粋な言語タスク、新規の推論チェーンを必要とするタスク）では、完全ファインチューニングより劣る。これは予期された制約だ：入力表現の最適化は視覚領域内の分布シフトしか補正できない；バックボーンの知識を更新することはできない。

実務者へのノート

ARTの価値提案は、すでにコンパイル済み推論グラフで本番環境でマルチモーダルモデルを提供していて、デプロイメントを中断せずにタスク固有の適応を追加したいビルダーに最も鋭く刺さる。それが可能にするパターン：タスクデータで視覚摂動パラメータのセットをオフラインで訓練し、サービングインフラに触れずにベースバックボーン+摂動を提供する。標準的なファインチューニングの同等物は新しい重みによる新しいデプロイメントを必要とする。

正直な範囲の限界：これは有用なサービング最適化であり、汎用ファインチューニングの代替ではない。タスクが言語モデルに新しい事実知識や新しい推論パターンを学習させることを要求するなら——特定の視覚入力を異なる方法で解釈することを学習させるのではなく——重みの更新が必要だ。ARTは「この特定の視覚入力分布を、推論する方法を知っているモデルが解釈できるようにする」ツールであり、「このモデルに以前できなかったことを教える」ツールではない。

見過ごされがちな視点

論文の「RLファインチューニング」というフレーミングは、テスト時の計算スケーリングへの関連性を過小評価しているかもしれない。視覚ソフトトークン摂動は構造的に、入力層でモデルに追加のタスクコンテキストを注入する方法だ。同じメカニズムはファインチューニングだけでなくテスト時探索にも使用できる：推論時に特定の入力でRLを実行し、その単一インスタンスのモデル信頼度やタスク報酬を最大化するように視覚摂動を最適化する。これによりARTは推論時の計算最適な視覚推論の潜在的なビルディングブロックになる——トークンごとではなく困難なサンプルごとにより多くの計算を費やす。この応用は論文では議論されていないが、アーキテクチャから自然に導出される。