arXiv 2604.12710 · 2026-04-13
LASA:在語意瓶頸層做語言無關的安全對齊
Junxiao Yang, Haoran Liu, Jinzhe Tu
辨識出一個語言中性的「語意瓶頸」層。把對齊錨定在這層,LLaMA-3.1-8B 攻擊成功率從 24.7% 降到 2.8%。
LASA 辨識出一個中介的「語意瓶頸」層 — 在這層,表示變得語言中性 — 並指出當前的安全對齊發生在下游,這解釋了為什麼低資源語言 jailbreak 容易成功。
把對齊錨定在瓶頸層,LLaMA-3.1-8B-Instruct 的攻擊成功率從 24.7% 降到 2.8%,其他模型也有一致改善。
實戰筆記(我的)
如果你做多語 chat 或 agent 產品,表層 token 的安全訓練在英文/中文以外的語言都很容易被穿透。這篇貢獻是辨識出對齊在模型裡的錨點位置 — 比追逐每個語言更乾淨的介入點。
對多數開發者這在你能做的上游(你不會重訓前沿模型)。但能影響廠商選擇:詢問你的模型供應商他們的安全對齊是否錨在瓶頸層,特別當你使用者跨多個語言時。