arXiv 2604.12710 · 2026-04-13

LASA：意味的ボトルネック層で言語非依存の安全性アライメント

Junxiao Yang, Haoran Liu, Jinzhe Tu

言語中立の「意味的ボトルネック」層を特定。この層にアライメントをアンカーすると、LLaMA-3.1-8B の攻撃成功率が 24.7% から 2.8% に低下。

LASA は中間に位置する「意味的ボトルネック」層を特定しました。この層では表現が言語中立になる、と論文は指摘します。現行の安全性アライメントはその下流で行われるため、低リソース言語での jailbreak が成功しやすい理由が説明できる、というのが主張です。

ボトルネック層にアライメントをアンカーすると、LLaMA-3.1-8B-Instruct の攻撃成功率が 24.7% から 2.8% に低下し、他のモデルでも一貫した改善が見られました。

実装ノート（私見）

多言語チャットやエージェント製品を作るなら、表層トークンの安全性訓練は英語／中国語以外の言語で簡単に貫かれます。この論文の貢献は、モデル内部でアライメントのアンカー位置を特定したことです。言語ごとに対処を追いかけるより、はるかにきれいな介入点です。

多くの開発者にとってこれは上流の領域です（自分でフロンティアモデルを再訓練することはありません）。しかしベンダー選定には影響します。モデルプロバイダーに、安全性アライメントがボトルネック層にアンカーされているかを問うことが意味を持ちます。とくにユーザーが多言語にまたがる場合に有効です。