arXiv 2604.12710 · 2026-04-13

LASA: 시맨틱 보틀넥 레이어에서 언어 독립 안전 정렬

Junxiao Yang, Haoran Liu, Jinzhe Tu

언어 중립적인 "시맨틱 보틀넥" 레이어를 식별했습니다. 정렬을 이 레이어에 앵커링하면 LLaMA-3.1-8B의 공격 성공률이 24.7%에서 2.8%로 낮아집니다.

LASA는 중간의 “시맨틱 보틀넥” 레이어를 식별합니다. 이 레이어에서 표현이 언어 중립적이 되며, 현재의 안전 정렬은 그 하류에서 이뤄지고 있다고 지적합니다. 이는 저자원 언어에서 jailbreak가 왜 쉽게 성공하는지 설명해 줍니다.

정렬을 보틀넥 레이어에 앵커링하면, LLaMA-3.1-8B-Instruct의 공격 성공률이 24.7%에서 2.8%로 낮아지며 다른 모델에서도 일관된 개선을 보입니다.

실전 노트(개인적인)

다국어 채팅이나 에이전트 제품을 만든다면, 표면 토큰 수준의 안전 학습은 영어/중국어 외 언어에서 쉽게 뚫립니다. 이 논문의 기여는 모델 내부에서 정렬의 앵커링 위치를 식별한 것입니다. 모든 언어를 따라다니며 막는 것보다 깔끔한 개입 지점입니다.

대부분의 개발자에게는 여러분이 영향을 줄 수 있는 상위 레이어의 일은 아닙니다(프런티어 모델을 재학습하지는 않으니까요). 하지만 벤더 선택에는 영향을 줄 수 있습니다. 모델 공급자에게 안전 정렬이 보틀넥 레이어에 앵커링되어 있는지 물어보세요. 사용자가 여러 언어를 가로지를 때 특히 중요합니다.