Builder Daily

arXiv 2604.22074 · 2026-04-23

结果型奖励不保证推理过程可验证或因果重要

Qinan Yu, Alexa Tartaglini, Peter Hase

提出 CIR(推理因果重要性)与 SR(推理充分性)两个指标。RLVR 改善正确率但未必改善 CIR 或 SR。

arxiv.org/abs/2604.22074 ↗


论文提出两个指标 — Causal Importance of Reasoning(CIR)与 Sufficiency of Reasoning(SR) — 用以测试 RLVR 训练的 chain-of-thought 是否真的驱动答案。

发现:RLVR 改善任务准确率,但稳定地改善 CIR 或 SR。要在不损失准确率下修复,作者建议监督微调搭配 outcome reward,或加入辅助 CIR/SR 奖励。

实战笔记(我的)

这是针对用 RLVR 训练 reasoning 模型的人的直接警告。你的模型可能更常答对,但推理轨迹的因果忠实度下降。两个含义:

  1. 可解释性 — 如果你靠 chain-of-thought 做除错或稽核,RLVR 训练的轨迹可能在你不知情下失效。
  2. Agent 安全 — 在你依模型叙述的推理授权工具调用的 agentic 系统,「对不相关答案做事后合理化」成为真实的失败模式。

把 CIR/SR-aware 的 reward shaping 加进 eval suite 是便宜的保险。

请喝咖啡