Builder Daily

arXiv 2604.22074 · 2026-04-23

結果型獎勵不保證推理過程可驗證或因果重要

Qinan Yu, Alexa Tartaglini, Peter Hase

提出 CIR(推理因果重要性)與 SR(推理充分性)兩個指標。RLVR 改善正確率但未必改善 CIR 或 SR。

arxiv.org/abs/2604.22074 ↗


論文提出兩個指標 — Causal Importance of Reasoning(CIR)與 Sufficiency of Reasoning(SR) — 用以測試 RLVR 訓練的 chain-of-thought 是否真的驅動答案。

發現:RLVR 改善任務準確率,但穩定地改善 CIR 或 SR。要在不損失準確率下修復,作者建議監督微調搭配 outcome reward,或加入輔助 CIR/SR 獎勵。

實戰筆記(我的)

這是針對用 RLVR 訓練 reasoning 模型的人的直接警告。你的模型可能更常答對,但推理軌跡的因果忠實度下降。兩個含義:

  1. 可解釋性 — 如果你靠 chain-of-thought 做除錯或稽核,RLVR 訓練的軌跡可能在你不知情下失效。
  2. Agent 安全 — 在你依模型敘述的推理授權工具呼叫的 agentic 系統,「對不相關答案做事後合理化」成為真實的失敗模式。

把 CIR/SR-aware 的 reward shaping 加進 eval suite 是便宜的保險。

請喝咖啡