arXiv 2604.12710 · 2026-04-13
LASA:意味的ボトルネック層で言語非依存の安全性アライメント
Junxiao Yang, Haoran Liu, Jinzhe Tu
言語中立の「意味的ボトルネック」層を特定。この層にアライメントをアンカーすると、LLaMA-3.1-8B の攻撃成功率が 24.7% から 2.8% に低下。
LASA は中間に位置する「意味的ボトルネック」層を特定しました。この層では表現が言語中立になる、と論文は指摘します。現行の安全性アライメントはその下流で行われるため、低リソース言語での jailbreak が成功しやすい理由が説明できる、というのが主張です。
ボトルネック層にアライメントをアンカーすると、LLaMA-3.1-8B-Instruct の攻撃成功率が 24.7% から 2.8% に低下し、他のモデルでも一貫した改善が見られました。
実装ノート(私見)
多言語チャットやエージェント製品を作るなら、表層トークンの安全性訓練は英語/中国語以外の言語で簡単に貫かれます。この論文の貢献は、モデル内部でアライメントのアンカー位置を特定したことです。言語ごとに対処を追いかけるより、はるかにきれいな介入点です。
多くの開発者にとってこれは上流の領域です(自分でフロンティアモデルを再訓練することはありません)。しかしベンダー選定には影響します。モデルプロバイダーに、安全性アライメントがボトルネック層にアンカーされているかを問うことが意味を持ちます。とくにユーザーが多言語にまたがる場合に有効です。