arXiv 2606.02907·2026-06-07 — 次瀏覽

你的「推理探針」可能只是在讀格式：一個 arXiv 的警示性結果

Subramanyam Sahoo, Vinija Jain, Aman Chadha, Divya Chaudhary

一篇新的 arXiv 論文（2606.02907）顯示，在 Qwen3-14B 隱藏狀態中以 100% 準確率區分演繹、歸納與溯因推理的線性探針，一旦你控制了任務格式的混淆因素（如來源資料集、選項數量與回應長度），準確率便會崩落至隨機水準。重點是：能對某個標籤進行分類的探針，並不能證明模型內部表徵了那個概念。

arxiv.org/abs/2606.02907 ↗

這篇論文主張什麼

可解釋性研究中常見的一步：在一個凍結的 LLM 隱藏狀態上訓練一個小型線性分類器（「線性探針」），證明它能以高準確率區分概念 A 與概念 B，然後得出模型在內部「表徵」了那個區別的結論。arXiv 預印本「Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States」（2606.02907，2026 年 6 月 1 日提交，cs.CL）主張這個結論往往是站不住腳的。

作者在三個推理家族上對 Qwen3-14B 進行探測——演繹（LogiQA 2.0）、歸納（ARC-Challenge）與溯因（alpha-NLI）。在第 40 層中的第 32 層，一個線性探針達到 100% 的交叉驗證準確率，且幾何結構清晰可分。這看起來就像教科書上「模型編碼了推理模式」的結果。

接著他們對它進行壓力測試。這三個資料集的差異不只在推理類型，還在於表面格式：題目來自哪個語料庫（來源身分）、它有多少個答案選項（選項數量），以及回應有多長（回應長度）。當作者將隱藏狀態對這三個混淆因素做殘差化——移除單憑格式就能解釋的變異——探針準確率便掉到隨機水準。沿著「推理模式」方向進行因果操控（causal steering）並未產生任何功能性效果（報告的 p = 0.286）。他們的結論是：那個幾何結構追蹤的是任務格式，而非某種計算上的推理模式，而底層的推理表徵在這三個任務之間看來大致是共享的。

為什麼這很重要

這是一個會影響大量已發表可解釋性研究的方法論地雷。「探針準確率很高，因此這個概念有被表徵」的模式無處不在——出現在關於真實性方向、情感神經元、拒答方向，以及推理類型編碼的各種主張中。如果你的正例與負例在任何附帶層面上有差異（長度、格式、它們來自哪個基準，甚至是分詞的怪癖），線性探針都可能抓住那個捷徑，仍然交出近乎完美的數字。

作者推動的修正方法說起來簡單、採用起來卻不舒服：例行性的格式去混淆。在相信一個探針之前，先對明顯的干擾變數做殘差化並重新檢查。他們也仰賴因果操控作為一種合理性測試——如果對所謂的概念方向進行介入並未改變行為，那這個方向大概就不是那個概念。他們在每個任務上報告的內在維度數字（20.6、28.5、33.6），以及近乎隨機的 trace-anchor 一致度（42.5% 對比 33.3% 的隨機水準），全都指向同一個方向：那個可分性是結構性的，不是語意性的。

一個有用的心智模型：探針衡量的是可解碼性（decodability），不是使用（use）。資訊能從激活值中被線性還原，完全不能說明模型是否依賴它，也不能說明它反映的是一個乾淨的內部概念，還是你建構資料集的方式所帶來的一個相關性假象。

階段	他們做了什麼	結果
樸素探針	第 32 層的線性分類器，三個推理資料集	100% 準確率，分離良好
去混淆後	對來源、選項數量、回應長度做殘差化	掉到隨機水準
因果檢驗	沿著還原出的方向進行操控	無效果（p = 0.286）

從業者須知

如果你在跑探針——為了可解釋性、為了一個「測謊」分類器，或為了路由——請把高準確率的數字當成一個假設，而非一個發現。為你的資料集建立一份混淆因素檢查清單（來源、長度、選項數量、標籤平衡的模板），對它做殘差化，然後只信任殘差訊號。讓每一個探針主張都搭配一次因果介入：如果操控那個方向並不會改變行為，你手上的是相關性，不是機制。並且優先採用格式相符的負例——相同的模板、相同的長度分布、相同的語料庫——這樣唯一會變動的就只有你真正在意的那個概念。

較少被考量的角度

更深層的不安在於，這種失敗模式是隨著模型能力而放大，而非隨之縮小。更大的模型編碼了更豐富的表面統計量，因此會讓附帶的格式特徵更加線性可分，這使得偽探針在人們最想去解釋的前沿系統上看起來更加令人信服。這顛覆了「更大、更好的模型更容易研究」的常見直覺。它也為建立在探針之上的安全工具提出了一個低調的問題——例如真實性或欺騙分類器——在那裡，一條乾淨的準確率曲線可能讀的是提示詞的形狀，而非模型的意圖，並且在對手一旦控制了格式的那一刻，就會悄無聲息地失效。