arXiv 2604.12710 · 2026-04-13

LASA：在语义瓶颈层做语言无关的安全对齐

Junxiao Yang, Haoran Liu, Jinzhe Tu

辨识出一个语言中性的「语义瓶颈」层。把对齐锚定在这层，LLaMA-3.1-8B 攻击成功率从 24.7% 降到 2.8%。

LASA 辨识出一个中介的「语义瓶颈」层 — 在这层，表示变得语言中性 — 并指出当前的安全对齐发生在下游，这解释了为什么低资源语言 jailbreak 容易成功。

把对齐锚定在瓶颈层，LLaMA-3.1-8B-Instruct 的攻击成功率从 24.7% 降到 2.8%，其他模型也有一致改善。

实战笔记（我的）

如果你做多语 chat 或 agent 产品，表层 token 的安全训练在英文/中文以外的语言都很容易被穿透。这篇贡献是辨识出对齐在模型里的锚点位置 — 比追逐每个语言更干净的介入点。

对多数开发者这在你能做的上游（你不会重训前沿模型）。但能影响厂商选择：询问你的模型供应商他们的安全对齐是否锚在瓶颈层，特别当你使用者跨多个语言时。