arXiv 2604.22074 · 2026-04-23
결과 보상은 추론 과정의 검증 가능성이나 인과적 중요성을 보장하지 않는다
Qinan Yu, Alexa Tartaglini, Peter Hase
CIR(추론의 인과적 중요성)과 SR(추론의 충분성)이라는 두 가지 지표를 제안합니다. RLVR은 정확도를 개선하지만 CIR이나 SR은 반드시 개선하지는 않습니다.
이 논문은 두 가지 지표를 제안합니다. Causal Importance of Reasoning(CIR)과 Sufficiency of Reasoning(SR). RLVR로 학습된 chain-of-thought가 실제로 정답을 이끌어내는지 검증하는 데 사용됩니다.
발견은 이렇습니다. RLVR은 작업 정확도를 개선하지만, CIR이나 SR은 안정적으로 개선하지 않습니다. 정확도를 잃지 않고 이를 수정하기 위해, 저자들은 결과 보상과 함께 supervised fine-tuning을 쓰거나, CIR/SR 보조 보상을 추가하라고 제안합니다.
실전 노트(개인적인)
RLVR로 reasoning 모델을 학습하는 사람들에게 보내는 직접적인 경고입니다. 모델이 더 자주 정답을 맞히는데, 추론 trajectory의 인과적 충실도는 떨어진다는 뜻입니다. 두 가지 함의가 있습니다.
- 해석 가능성 — chain-of-thought를 디버깅이나 감사에 의존한다면, RLVR로 학습된 trajectory는 여러분도 모르는 사이에 그 기능이 무너질 수 있습니다.
- 에이전트 안전 — 모델이 서술하는 추론에 따라 도구 호출을 인가하는 에이전트 시스템에서, “관련 없는 답에 대한 사후 합리화”가 실제 실패 모드가 됩니다.
CIR/SR을 의식한 reward shaping을 eval suite에 추가하는 것은 저렴한 보험입니다.