arXiv 2606.02907·2026-06-07 — 回閲覧
あなたの「推論プローブ」は、実は書式を読んでいるだけかもしれない:警鐘を鳴らす arXiv の結果
Subramanyam Sahoo, Vinija Jain, Aman Chadha, Divya Chaudhary
新しい arXiv 論文(2606.02907)は、Qwen3-14B の隠れ状態において演繹・帰納・アブダクション推論を 100% の精度で分離する線形プローブが、ソースデータセット・選択肢数・応答長といったタスク書式の交絡因子を統制した途端、偶然レベルへと崩れ落ちることを示している。要点は、あるラベルを分類できるプローブは、モデルがその概念を表現している証拠にはならないということだ。
この論文が主張すること
解釈可能性研究でよくある手順がある。凍結した LLM の隠れ状態上に小さな線形分類器(「線形プローブ」)を訓練し、それが概念 A と概念 B を高精度で分離することを示し、モデルが内部でその区別を「表現している」と結論づける、というものだ。arXiv プレプリント「Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States」(2606.02907、2026 年 6 月 1 日投稿、cs.CL)は、この結論がしばしば正当化されていないと主張する。
著者らは三つの推論ファミリーにわたって Qwen3-14B を探査する——演繹(LogiQA 2.0)、帰納(ARC-Challenge)、アブダクション(alpha-NLI)である。40 層中の第 32 層において、線形プローブは 100% の交差検証精度に達し、幾何構造はきれいに分離されている。これはまさに教科書的な「モデルは推論モードを符号化している」という結果に見える。
そこで彼らはそれにストレステストをかける。この三つのデータセットは、推論の種類だけでなく表層の書式においても異なっている。すなわち、項目がどのコーパス由来か(ソースの同一性)、答えの選択肢がいくつあるか(選択肢数)、応答がどれだけ長いか(応答長)である。著者らが隠れ状態をこの三つの交絡因子に対して残差化する——書式だけで説明できる分散を取り除く——と、プローブの精度は偶然レベルへと低下する。「推論モード」方向に沿った因果的ステアリング(causal steering)は、いかなる機能的効果も生じさせない(報告された p = 0.286)。彼らの結論はこうだ。その幾何構造が追跡していたのはタスク書式であって、計算的な推論モードではなく、根底にある推論表現はこの三つのタスク間でおおむね共有されているように見える、と。
なぜ重要なのか
これは、公表された解釈可能性研究の多くに影響を及ぼす方法論上の地雷である。「プローブの精度が高い、ゆえにその概念は表現されている」というパターンは至るところにある——真実性方向、感情ニューロン、拒否方向、推論タイプの符号化に関する主張においてだ。もしあなたの正例と負例が何らか付随的な点(長さ、書式、どのベンチマーク由来か、さらにはトークン化の癖まで)で異なっていれば、線形プローブはその近道に飛びつき、それでも完璧に近い数字を出しうる。
著者らが推し進める修正策は、述べるのは簡単だが採用するのは居心地が悪い。すなわち、書式の脱交絡を日常的に行うことだ。プローブを信じる前に、明白な攪乱変数に対して残差化し、再確認せよ。彼らはまた、健全性テストとして因果的ステアリングに依拠する——いわゆる概念方向に介入しても行動が変化しないなら、その方向はおそらく当の概念ではない。彼らがタスクごとに報告する内在次元数(20.6、28.5、33.6)と、偶然に近い trace-anchor の一致度(42.5% 対 33.3% の偶然水準)は、すべて同じ方向を指している。すなわち、その分離可能性は構造的なものであって、意味的なものではなかった、と。
有用な心的モデルがある。プローブが測っているのはデコード可能性(decodability)であって、使用(use)ではない。情報が活性化から線形に復元できるということは、モデルがそれに依拠しているかどうかについても、それがきれいな内部概念を反映しているのか、それともあなたのデータセットの作り方に起因する相関した人工物なのかについても、何も語らない。
| 段階 | 彼らが行ったこと | 結果 |
|---|---|---|
| 素朴なプローブ | 第 32 層の線形分類器、三つの推論データセット | 100% 精度、よく分離 |
| 脱交絡後 | ソース、選択肢数、応答長で残差化 | 偶然レベルへ低下 |
| 因果的検証 | 復元した方向に沿ってステアリング | 効果なし(p = 0.286) |
実務者への注記
プローブを走らせているなら——解釈可能性のため、「嘘発見器」分類器のため、あるいはルーティングのため——高い精度の数字は発見ではなく仮説として扱うべきだ。あなたのデータセット用に交絡因子のチェックリストを作り(ソース、長さ、選択肢数、ラベル均衡のテンプレート)、それに対して残差化し、残差信号だけを信頼せよ。すべてのプローブの主張に因果的介入を組み合わせよ。その方向をステアリングしても行動が動かないなら、手にしているのは相関であって、メカニズムではない。そして書式が一致した負例を優先せよ——同じテンプレート、同じ長さの分布、同じコーパス——そうすれば変動するのは、あなたが気にかけている当の概念だけになる。
十分に考慮されていない角度
より深い不安は、この失敗モードがモデルの能力に逆らってではなく、それに比例して拡大する点にある。より大きなモデルはより豊かな表層統計量を符号化するため、付随的な書式特徴をより線形に分離可能にし、その結果、人々が最も解釈したがる最前線のシステムにおいて、まさにその場で偽のプローブをより説得力あるものに見せてしまう。これは、より大きく優れたモデルほど研究しやすいという通常の直観をひっくり返す。それはまた、プローブの上に築かれた安全ツール——たとえば真実性や欺瞞の分類器——に対して、静かな問いを突きつける。そこでは、きれいな精度曲線がモデルの意図ではなくプロンプトの形を読んでいるのかもしれず、敵対者が書式を制御した瞬間に、音もなく機能不全に陥るだろう。