arXiv 2606.02907·2026-06-07 — 次浏览

你的「推理探针」可能只是在读格式：一个 arXiv 的警示性结果

Subramanyam Sahoo, Vinija Jain, Aman Chadha, Divya Chaudhary

一篇新的 arXiv 论文（2606.02907）显示，在 Qwen3-14B 隐藏状态中以 100% 准确率区分演绎、归纳与溯因推理的线性探针，一旦你控制了任务格式的混淆因素（如来源数据集、选项数量与回应长度），准确率便会崩落至随机水平。重点是：能对某个标签进行分类的探针，并不能证明模型内部表征了那个概念。

arxiv.org/abs/2606.02907 ↗

这篇论文主张什么

可解释性研究中常见的一步：在一个冻结的 LLM 隐藏状态上训练一个小型线性分类器（「线性探针」），证明它能以高准确率区分概念 A 与概念 B，然后得出模型在内部「表征」了那个区别的结论。arXiv 预印本「Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States」（2606.02907，2026 年 6 月 1 日提交，cs.CL）主张这个结论往往是站不住脚的。

作者在三个推理家族上对 Qwen3-14B 进行探测——演绎（LogiQA 2.0）、归纳（ARC-Challenge）与溯因（alpha-NLI）。在第 40 层中的第 32 层，一个线性探针达到 100% 的交叉验证准确率，且几何结构清晰可分。这看起来就像教科书上「模型编码了推理模式」的结果。

接着他们对它进行压力测试。这三个数据集的差异不只在推理类型，还在于表面格式：题目来自哪个语料库（来源身份）、它有多少个答案选项（选项数量），以及回应有多长（回应长度）。当作者将隐藏状态对这三个混淆因素做残差化——移除单凭格式就能解释的变异——探针准确率便掉到随机水平。沿着「推理模式」方向进行因果操控（causal steering）并未产生任何功能性效果（报告的 p = 0.286）。他们的结论是：那个几何结构追踪的是任务格式，而非某种计算上的推理模式，而底层的推理表征在这三个任务之间看来大致是共享的。

为什么这很重要

这是一个会影响大量已发表可解释性研究的方法论地雷。「探针准确率很高，因此这个概念有被表征」的模式无处不在——出现在关于真实性方向、情感神经元、拒答方向，以及推理类型编码的各种主张中。如果你的正例与负例在任何附带层面上有差异（长度、格式、它们来自哪个基准，甚至是分词的怪癖），线性探针都可能抓住那个捷径，仍然交出近乎完美的数字。

作者推动的修正方法说起来简单、采用起来却不舒服：例行性的格式去混淆。在相信一个探针之前，先对明显的干扰变量做残差化并重新检查。他们也仰赖因果操控作为一种合理性测试——如果对所谓的概念方向进行介入并未改变行为，那这个方向大概就不是那个概念。他们在每个任务上报告的内在维度数字（20.6、28.5、33.6），以及近乎随机的 trace-anchor 一致度（42.5% 对比 33.3% 的随机水平），全都指向同一个方向：那个可分性是结构性的，不是语义性的。

一个有用的心智模型：探针衡量的是可解码性（decodability），不是使用（use）。信息能从激活值中被线性还原，完全不能说明模型是否依赖它，也不能说明它反映的是一个干净的内部概念，还是你建构数据集的方式所带来的一个相关性假象。

阶段	他们做了什么	结果
朴素探针	第 32 层的线性分类器，三个推理数据集	100% 准确率，分离良好
去混淆后	对来源、选项数量、回应长度做残差化	掉到随机水平
因果检验	沿着还原出的方向进行操控	无效果（p = 0.286）

从业者须知

如果你在跑探针——为了可解释性、为了一个「测谎」分类器，或为了路由——请把高准确率的数字当成一个假设，而非一个发现。为你的数据集建立一份混淆因素检查清单（来源、长度、选项数量、标签平衡的模板），对它做残差化，然后只信任残差信号。让每一个探针主张都搭配一次因果介入：如果操控那个方向并不会改变行为，你手上的是相关性，不是机制。并且优先采用格式相符的负例——相同的模板、相同的长度分布、相同的语料库——这样唯一会变动的就只有你真正在意的那个概念。

较少被考量的角度

更深层的不安在于，这种失败模式是随着模型能力而放大，而非随之缩小。更大的模型编码了更丰富的表面统计量，因此会让附带的格式特征更加线性可分，这使得伪探针在人们最想去解释的前沿系统上看起来更加令人信服。这颠覆了「更大、更好的模型更容易研究」的常见直觉。它也为建立在探针之上的安全工具提出了一个低调的问题——例如真实性或欺骗分类器——在那里，一条干净的准确率曲线可能读的是提示词的形状，而非模型的意图，并且在对手一旦控制了格式的那一刻，就会悄无声息地失效。