arXiv 2604.22074 · 2026-04-23
結果型獎勵不保證推理過程可驗證或因果重要
Qinan Yu, Alexa Tartaglini, Peter Hase
提出 CIR(推理因果重要性)與 SR(推理充分性)兩個指標。RLVR 改善正確率但未必改善 CIR 或 SR。
論文提出兩個指標 — Causal Importance of Reasoning(CIR)與 Sufficiency of Reasoning(SR) — 用以測試 RLVR 訓練的 chain-of-thought 是否真的驅動答案。
發現:RLVR 改善任務準確率,但不穩定地改善 CIR 或 SR。要在不損失準確率下修復,作者建議監督微調搭配 outcome reward,或加入輔助 CIR/SR 獎勵。
實戰筆記(我的)
這是針對用 RLVR 訓練 reasoning 模型的人的直接警告。你的模型可能更常答對,但推理軌跡的因果忠實度下降。兩個含義:
- 可解釋性 — 如果你靠 chain-of-thought 做除錯或稽核,RLVR 訓練的軌跡可能在你不知情下失效。
- Agent 安全 — 在你依模型敘述的推理授權工具呼叫的 agentic 系統,「對不相關答案做事後合理化」成為真實的失敗模式。
把 CIR/SR-aware 的 reward shaping 加進 eval suite 是便宜的保險。