arXiv 2604.22074 · 2026-04-23

结果型奖励不保证推理过程可验证或因果重要

Qinan Yu, Alexa Tartaglini, Peter Hase

提出 CIR（推理因果重要性）与 SR（推理充分性）两个指标。RLVR 改善正确率但未必改善 CIR 或 SR。

论文提出两个指标 — Causal Importance of Reasoning（CIR）与 Sufficiency of Reasoning（SR） — 用以测试 RLVR 训练的 chain-of-thought 是否真的驱动答案。

发现：RLVR 改善任务准确率，但不稳定地改善 CIR 或 SR。要在不损失准确率下修复，作者建议监督微调搭配 outcome reward，或加入辅助 CIR/SR 奖励。

实战笔记（我的）

这是针对用 RLVR 训练 reasoning 模型的人的直接警告。你的模型可能更常答对，但推理轨迹的因果忠实度下降。两个含义：

把 CIR/SR-aware 的 reward shaping 加进 eval suite 是便宜的保险。