arXiv 2606.11854·2026-06-10 — 次浏览

ART：以强化学习优化视觉软标记，在不更新权重的情况下微调冻结多模态大型语言模型

Chudoba et al., Alyaev, Galuscakova, Wiktorski

ART 通过优化原始视觉输入标记（而非模型权重），微调冻结的多模态 LLM，使 RL 适配能在 vLLM 等预编译推理图上执行。对冻结主干的视觉软标记进行强化训练，无需任何权重更新即可实现有效的任务适配。

论文做了什么

arXiv:2606.11854（cs.CL，2026 年 6 月 10 日提交）提出了 ART——Art-based Reinforcement Training——一种在不修改任何模型权重的情况下，将冻结的多模态 LLM（MLLM）适配到新任务的方法。ART 不对主干进行微调，而是使用强化学习目标优化视觉输入标记嵌入——即视觉编码器在进入语言模型之前生成的软标记。

核心动机是与高吞吐量推理引擎的兼容性。vLLM 等现代服务栈在部署时会预编译语言模型的计算图（使用 CUDA graph capture 等技术）。更新权重的微调会使这些预编译图失效，强制昂贵的重新编译。ART 完全绕开了这个问题：因为它从不触碰权重，编译后的计算图保持有效。RL 适配发生在输入空间，而不是参数空间。

工作原理

架构由三个部分组成：

1. 冻结的 MLLM 主干 — 语言模型及其注意力层被锁定。训练期间没有梯度流过这些层。ART 假设模型已以预编译推理图部署。

2. 视觉编码器 + 软标记投影器 — 视觉编码器（如 ViT 或 CLIP）正常处理输入图像并产生 patch 嵌入。这些嵌入通过轻量级投影器（MLP 适配器）进入语言模型的嵌入空间。

3. 可学习的视觉软标记扰动 — ART 在投影后的视觉标记之上添加可学习的扰动层。这些扰动通过 RL（使用任务表现的奖励信号）优化，以向视觉流中注入特定任务的信息。扰动参数相对主干而言体量很小，可在推理时应用，无需修改基础模型。

RL 训练目标奖励产生正确任务输出的标记序列，使用仅作用于扰动层的标准 REINFORCE 或 PPO 更新。

为何对部署重要

计算图保留是核心洞见。 在生产中部署大型 MLLM 需要相当大的前期延迟来为特定 GPU 目标编译计算图（前沿规模模型通常需要 10–30 分钟）。任何权重变更都会使此失效。修改权重的微调方法——即使是添加小型适配器矩阵的 LoRA——在适配后都需要完整的重新编译。ART 的权重冻结方法意味着：

适配可以在部署后进行，无需重新编译
多个任务可以使用不同的视觉扰动从同一编译主干服务
适配参数足够小，可以按请求或按租户切换

对于多租户推理服务（一个模型、每个客户有许多微调”个性化”版本），这是一个有意义的架构优势。

性能表现

论文报告 ART 在多模态推理基准上实现了有效的任务特定适配，在视觉上下文是主要任务区分信号的任务上，准确率与完整微调方法相当。最强的结果出现在视觉输入需要携带特定问题背景的领域（如特定领域图表阅读、特定领域检测任务），而非通用图像理解。

在语言模型先验本身需要改变的情况下（纯语言任务、需要新颖推理链的任务），该方法的表现逊于完整微调。这是预期的限制：优化输入表示只能补偿视觉领域内的分布偏移；它无法更新主干的知识。

从业者视角

ART 的价值主张对于已经在生产中以编译推理图服务多模态模型、并希望在不中断部署的情况下添加特定任务适配的开发者最为突出。它所启用的模式：在任务数据上离线训练一组视觉扰动参数，然后在不触动服务基础设施的情况下服务基础主干 + 扰动。标准微调的等效操作则需要带新权重的新部署。

诚实的范围限制：这是一种有用的服务优化，而不是通用微调的替代。如果你的任务需要语言模型学习新的事实知识或新的推理模式——而不是学习如何以不同方式解读特定的视觉输入——你需要权重更新。ART 是”让这个特定视觉输入分布被一个已知如何推理的模型可解读”的工具，而不是”教会这个模型以前无法做到的事情”的工具。

鲜少被讨论的角度

论文以”RL 微调”框架，可能低估了其对测试时算力扩展的相关性。视觉软标记扰动在结构上是一种在输入层向模型注入额外任务上下文的方式。同样的机制不仅可用于微调，还可用于测试时搜索：在推理时对特定输入执行 RL，优化视觉扰动以最大化模型置信度或单个实例的任务奖励。这使 ART 成为推理时算力最优视觉推理的潜在构建块——在每个困难样本上花费更多算力，而不是每个标记上。论文未讨论这一应用，但它从架构中自然衍生出来。