arXiv 2604.22074 · 2026-04-23
結果型報酬は推論過程の検証可能性や因果的重要性を保証しない
Qinan Yu, Alexa Tartaglini, Peter Hase
CIR(推論の因果的重要性)と SR(推論の充足性)の 2 指標を提案。RLVR は正答率を上げるが、CIR や SR を必ずしも上げない。
論文は 2 つの指標を提案します。Causal Importance of Reasoning(CIR)と Sufficiency of Reasoning(SR)です。これらは RLVR で訓練された chain-of-thought が本当に答えを駆動しているかをテストするために用いられます。
知見:RLVR はタスク正答率を上げますが、CIR や SR は安定的に上がりません。正答率を損なわずに修復するため、著者は outcome reward と組み合わせた supervised fine-tuning、もしくは補助的な CIR/SR 報酬の追加を提案しています。
実装ノート(私見)
RLVR で reasoning モデルを訓練する人への直接的な警告です。モデルはより頻繁に正答するようになる一方で、推論軌跡の因果的忠実度は下がる可能性があります。含意は 2 つあります。
- 解釈可能性 — chain-of-thought をデバッグや監査に使っているなら、RLVR で訓練された軌跡は気づかぬうちに使い物にならなくなっている可能性があります。
- エージェント安全性 — モデルが述べる推論に基づいてツール呼び出しを承認するエージェンティックシステムでは、「無関係な答えへの事後正当化」が現実の失敗モードとして発生します。
CIR/SR を意識した報酬整形を eval スイートに加えるのは、安価な保険になります。