arXiv 2604.22074 · 2026-04-23

結果型獎勵不保證推理過程可驗證或因果重要

Qinan Yu, Alexa Tartaglini, Peter Hase

提出 CIR（推理因果重要性）與 SR（推理充分性）兩個指標。RLVR 改善正確率但未必改善 CIR 或 SR。

論文提出兩個指標 — Causal Importance of Reasoning（CIR）與 Sufficiency of Reasoning（SR） — 用以測試 RLVR 訓練的 chain-of-thought 是否真的驅動答案。

發現：RLVR 改善任務準確率，但不穩定地改善 CIR 或 SR。要在不損失準確率下修復，作者建議監督微調搭配 outcome reward，或加入輔助 CIR/SR 獎勵。

實戰筆記（我的）

這是針對用 RLVR 訓練 reasoning 模型的人的直接警告。你的模型可能更常答對，但推理軌跡的因果忠實度下降。兩個含義：

把 CIR/SR-aware 的 reward shaping 加進 eval suite 是便宜的保險。