arXiv 2604.12710 · 2026-04-13

LASA：在語意瓶頸層做語言無關的安全對齊

Junxiao Yang, Haoran Liu, Jinzhe Tu

辨識出一個語言中性的「語意瓶頸」層。把對齊錨定在這層，LLaMA-3.1-8B 攻擊成功率從 24.7% 降到 2.8%。

LASA 辨識出一個中介的「語意瓶頸」層 — 在這層，表示變得語言中性 — 並指出當前的安全對齊發生在下游，這解釋了為什麼低資源語言 jailbreak 容易成功。

把對齊錨定在瓶頸層，LLaMA-3.1-8B-Instruct 的攻擊成功率從 24.7% 降到 2.8%，其他模型也有一致改善。

實戰筆記（我的）

如果你做多語 chat 或 agent 產品，表層 token 的安全訓練在英文/中文以外的語言都很容易被穿透。這篇貢獻是辨識出對齊在模型裡的錨點位置 — 比追逐每個語言更乾淨的介入點。

對多數開發者這在你能做的上游（你不會重訓前沿模型）。但能影響廠商選擇：詢問你的模型供應商他們的安全對齊是否錨在瓶頸層，特別當你使用者跨多個語言時。