arXiv 2606.11854·2026-06-10 — 次瀏覽

ART：以強化學習優化視覺軟標記，在不更新權重的情況下微調凍結多模態大型語言模型

Chudoba et al., Alyaev, Galuscakova, Wiktorski

ART 透過優化原始視覺輸入標記（而非模型權重），微調凍結的多模態 LLM，使 RL 適配能在 vLLM 等預編譯推理圖上執行。對凍結主幹的視覺軟標記進行強化訓練，無需任何權重更新即可實現有效的任務適配。

論文做了什麼

arXiv:2606.11854（cs.CL，2026 年 6 月 10 日提交）提出了 ART——Art-based Reinforcement Training——一種在不修改任何模型權重的情況下，將凍結的多模態 LLM（MLLM）適配至新任務的方法。ART 不對主幹進行微調，而是使用強化學習目標優化視覺輸入標記嵌入——即視覺編碼器在進入語言模型之前生成的軟標記。

核心動機是與高吞吐量推理引擎的相容性。vLLM 等現代服務堆疊在部署時會預編譯語言模型的計算圖（使用 CUDA graph capture 等技術）。更新權重的微調會使這些預編譯圖失效，強制昂貴的重新編譯。ART 完全繞開了這個問題：因為它從不碰觸權重，編譯後的計算圖保持有效。RL 適配發生在輸入空間，而不是參數空間。

工作原理

架構由三個部分組成：

1. 凍結的 MLLM 主幹 — 語言模型及其注意力層被鎖定。訓練期間沒有梯度流過這些層。ART 假設模型已以預編譯推理圖部署。

2. 視覺編碼器 + 軟標記投影器 — 視覺編碼器（如 ViT 或 CLIP）正常處理輸入圖像並產生 patch 嵌入。這些嵌入通過輕量級投影器（MLP 適配器）進入語言模型的嵌入空間。

3. 可學習的視覺軟標記擾動 — ART 在投影後的視覺標記之上添加可學習的擾動層。這些擾動通過 RL（使用任務表現的獎勵信號）優化，以向視覺流中注入特定任務的信息。擾動參數相對主幹而言體量很小，可在推理時應用，無需修改基礎模型。

RL 訓練目標獎勵產生正確任務輸出的標記序列，使用僅作用於擾動層的標準 REINFORCE 或 PPO 更新。

為何對部署重要

計算圖保留是核心洞見。 在生產中部署大型 MLLM 需要相當大的前期延遲來為特定 GPU 目標編譯計算圖（前沿規模模型通常需要 10–30 分鐘）。任何權重變更都會使此失效。修改權重的微調方法——即使是添加小型適配器矩陣的 LoRA——在適配後都需要完整的重新編譯。ART 的權重凍結方法意味著：

適配可以在部署後進行，無需重新編譯
多個任務可以使用不同的視覺擾動從同一編譯主幹服務
適配參數足夠小，可以按請求或按租戶切換

對於多租戶推理服務（一個模型、每個客戶有許多微調「個性化」版本），這是一個有意義的架構優勢。

性能表現

論文報告 ART 在多模態推理基準上實現了有效的任務特定適配，在視覺上下文是主要任務區分信號的任務上，準確率與完整微調方法相當。最強的結果出現在視覺輸入需要攜帶特定問題背景的領域（如特定領域圖表閱讀、特定領域檢測任務），而非通用圖像理解。

在語言模型先驗本身需要改變的情況下（純語言任務、需要新穎推理鏈的任務），該方法的表現遜於完整微調。這是預期的限制：優化輸入表示只能補償視覺領域內的分佈偏移；它無法更新主幹的知識。

實務觀察

ART 的價值主張對於已經在生產中以編譯推理圖服務多模態模型、並希望在不中斷部署的情況下添加特定任務適配的開發者最為突出。它所啟用的模式：在任務數據上離線訓練一組視覺擾動參數，然後在不觸動服務基礎設施的情況下服務基礎主幹 + 擾動。標準微調的等效操作則需要帶新權重的新部署。

誠實的範圍限制：這是一種有用的服務優化，而不是通用微調的替代。如果你的任務需要語言模型學習新的事實知識或新的推理模式——而不是學習如何以不同方式解讀特定的視覺輸入——你需要權重更新。ART 是「讓這個特定視覺輸入分佈被一個已知如何推理的模型可解讀」的工具，而不是「教會這個模型以前無法做到的事情」的工具。

鮮少被討論的角度

論文以「RL 微調」框架，可能低估了其對測試時算力擴展的相關性。視覺軟標記擾動在結構上是一種在輸入層向模型注入額外任務上下文的方式。同樣的機制不僅可用於微調，還可用於測試時搜索：在推理時對特定輸入執行 RL，優化視覺擾動以最大化模型信心或單個實例的任務獎勵。這使 ART 成為推理時算力最優視覺推理的潛在構建塊——在每個困難樣本上花費更多算力，而不是每個標記上。論文未討論這一應用，但它從架構中自然衍生出來。