arXiv 2604.22074 · 2026-04-23
结果型奖励不保证推理过程可验证或因果重要
Qinan Yu, Alexa Tartaglini, Peter Hase
提出 CIR(推理因果重要性)与 SR(推理充分性)两个指标。RLVR 改善正确率但未必改善 CIR 或 SR。
论文提出两个指标 — Causal Importance of Reasoning(CIR)与 Sufficiency of Reasoning(SR) — 用以测试 RLVR 训练的 chain-of-thought 是否真的驱动答案。
发现:RLVR 改善任务准确率,但不稳定地改善 CIR 或 SR。要在不损失准确率下修复,作者建议监督微调搭配 outcome reward,或加入辅助 CIR/SR 奖励。
实战笔记(我的)
这是针对用 RLVR 训练 reasoning 模型的人的直接警告。你的模型可能更常答对,但推理轨迹的因果忠实度下降。两个含义:
- 可解释性 — 如果你靠 chain-of-thought 做除错或稽核,RLVR 训练的轨迹可能在你不知情下失效。
- Agent 安全 — 在你依模型叙述的推理授权工具调用的 agentic 系统,「对不相关答案做事后合理化」成为真实的失败模式。
把 CIR/SR-aware 的 reward shaping 加进 eval suite 是便宜的保险。