Builder Daily

arXiv 2604.12710 · 2026-04-13

LASA:在语义瓶颈层做语言无关的安全对齐

Junxiao Yang, Haoran Liu, Jinzhe Tu

辨识出一个语言中性的「语义瓶颈」层。把对齐锚定在这层,LLaMA-3.1-8B 攻击成功率从 24.7% 降到 2.8%。

arxiv.org/abs/2604.12710 ↗


LASA 辨识出一个中介的「语义瓶颈」层 — 在这层,表示变得语言中性 — 并指出当前的安全对齐发生在下游,这解释了为什么低资源语言 jailbreak 容易成功。

把对齐锚定在瓶颈层,LLaMA-3.1-8B-Instruct 的攻击成功率从 24.7% 降到 2.8%,其他模型也有一致改善。

实战笔记(我的)

如果你做多语 chat 或 agent 产品,表层 token 的安全训练在英文/中文以外的语言都很容易被穿透。这篇贡献是辨识出对齐在模型里的锚点位置 — 比追逐每个语言更干净的介入点。

对多数开发者这在你能做的上游(你不会重训前沿模型)。但能影响厂商选择:询问你的模型供应商他们的安全对齐是否锚在瓶颈层,特别当你使用者跨多个语言时。

请喝咖啡