Skip to content
AI-Daily-Builder

arXiv 2606.02907·2026-06-07 次瀏覽

你的「推理探針」可能只是在讀格式:一個 arXiv 的警示性結果

Subramanyam Sahoo, Vinija Jain, Aman Chadha, Divya Chaudhary

一篇新的 arXiv 論文(2606.02907)顯示,在 Qwen3-14B 隱藏狀態中以 100% 準確率區分演繹、歸納與溯因推理的線性探針,一旦你控制了任務格式的混淆因素(如來源資料集、選項數量與回應長度),準確率便會崩落至隨機水準。重點是:能對某個標籤進行分類的探針,並不能證明模型內部表徵了那個概念。

arxiv.org/abs/2606.02907 ↗


這篇論文主張什麼

可解釋性研究中常見的一步:在一個凍結的 LLM 隱藏狀態上訓練一個小型線性分類器(「線性探針」),證明它能以高準確率區分概念 A 與概念 B,然後得出模型在內部「表徵」了那個區別的結論。arXiv 預印本「Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States」(2606.02907,2026 年 6 月 1 日提交,cs.CL)主張這個結論往往是站不住腳的。

作者在三個推理家族上對 Qwen3-14B 進行探測——演繹(LogiQA 2.0)、歸納(ARC-Challenge)與溯因(alpha-NLI)。在第 40 層中的第 32 層,一個線性探針達到 100% 的交叉驗證準確率,且幾何結構清晰可分。這看起來就像教科書上「模型編碼了推理模式」的結果。

接著他們對它進行壓力測試。這三個資料集的差異不只在推理類型,還在於表面格式:題目來自哪個語料庫(來源身分)、它有多少個答案選項(選項數量),以及回應有多長(回應長度)。當作者將隱藏狀態對這三個混淆因素做殘差化——移除單憑格式就能解釋的變異——探針準確率便掉到隨機水準。沿著「推理模式」方向進行因果操控(causal steering)並未產生任何功能性效果(報告的 p = 0.286)。他們的結論是:那個幾何結構追蹤的是任務格式,而非某種計算上的推理模式,而底層的推理表徵在這三個任務之間看來大致是共享的。

為什麼這很重要

這是一個會影響大量已發表可解釋性研究的方法論地雷。「探針準確率很高,因此這個概念有被表徵」的模式無處不在——出現在關於真實性方向、情感神經元、拒答方向,以及推理類型編碼的各種主張中。如果你的正例與負例在任何附帶層面上有差異(長度、格式、它們來自哪個基準,甚至是分詞的怪癖),線性探針都可能抓住那個捷徑,仍然交出近乎完美的數字。

作者推動的修正方法說起來簡單、採用起來卻不舒服:例行性的格式去混淆。在相信一個探針之前,先對明顯的干擾變數做殘差化並重新檢查。他們也仰賴因果操控作為一種合理性測試——如果對所謂的概念方向進行介入並未改變行為,那這個方向大概就不是那個概念。他們在每個任務上報告的內在維度數字(20.6、28.5、33.6),以及近乎隨機的 trace-anchor 一致度(42.5% 對比 33.3% 的隨機水準),全都指向同一個方向:那個可分性是結構性的,不是語意性的。

一個有用的心智模型:探針衡量的是可解碼性(decodability),不是使用(use)。資訊能從激活值中被線性還原,完全不能說明模型是否依賴它,也不能說明它反映的是一個乾淨的內部概念,還是你建構資料集的方式所帶來的一個相關性假象。

階段他們做了什麼結果
樸素探針第 32 層的線性分類器,三個推理資料集100% 準確率,分離良好
去混淆後對來源、選項數量、回應長度做殘差化掉到隨機水準
因果檢驗沿著還原出的方向進行操控無效果(p = 0.286)

從業者須知

如果你在跑探針——為了可解釋性、為了一個「測謊」分類器,或為了路由——請把高準確率的數字當成一個假設,而非一個發現。為你的資料集建立一份混淆因素檢查清單(來源、長度、選項數量、標籤平衡的模板),對它做殘差化,然後只信任殘差訊號。讓每一個探針主張都搭配一次因果介入:如果操控那個方向並不會改變行為,你手上的是相關性,不是機制。並且優先採用格式相符的負例——相同的模板、相同的長度分布、相同的語料庫——這樣唯一會變動的就只有你真正在意的那個概念。

較少被考量的角度

更深層的不安在於,這種失敗模式是隨著模型能力而放大,而非隨之縮小。更大的模型編碼了更豐富的表面統計量,因此會讓附帶的格式特徵更加線性可分,這使得偽探針在人們最想去解釋的前沿系統上看起來更加令人信服。這顛覆了「更大、更好的模型更容易研究」的常見直覺。它也為建立在探針之上的安全工具提出了一個低調的問題——例如真實性或欺騙分類器——在那裡,一條乾淨的準確率曲線可能讀的是提示詞的形狀,而非模型的意圖,並且在對手一旦控制了格式的那一刻,就會悄無聲息地失效。

請喝咖啡