X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability

要約

LLMSの安全アライメント技術の急速な発展にもかかわらず、マルチターンの脱獄に対する防御は依然として困難な作業です。
この論文では、包括的な比較を実施し、いくつかの既存の防御方法が、多ターンの脱獄に対するLLMの堅牢性を改善するが、使いやすさを妥協すること、つまり一般的な能力を低下させるか、過剰な問題を引き起こすことができることを明らかにします。
LLMSのメカニズムの解釈可能性の観点から、これらの方法が安全で有害な特徴表現を正確に区別する境界を確立できないことがわかります。
したがって、有害な表現に近い境界セーフ表現は必然的に混乱し、使いやすさが低下します。
この問題に対処するために、有害な表現を境界セーフ表現から遠ざけ、正確な区別境界を取得するためにXバウンダリーを提案します。
このようにして、有害な表現は、安全な表現を中断することなく正確に消去できます。
実験結果は、X結合がマルチターンの脱獄に対して最先端の防衛パフォーマンスを達成し、過剰反復率を約20%削減し、ほぼ完全な一般的な能力を維持することを示しています。
さらに、X結合がトレーニング中に収束プロセスを加速できることを理論的に証明し、経験的に検証します。
https://github.com/ai45lab/x-boundaryのコードをご覧ください。

要約(オリジナル)

Despite the rapid development of safety alignment techniques for LLMs, defending against multi-turn jailbreaks is still a challenging task. In this paper, we conduct a comprehensive comparison, revealing that some existing defense methods can improve the robustness of LLMs against multi-turn jailbreaks but compromise usability, i.e., reducing general capabilities or causing the over-refusal problem. From the perspective of mechanism interpretability of LLMs, we discover that these methods fail to establish a boundary that exactly distinguishes safe and harmful feature representations. Therefore, boundary-safe representations close to harmful representations are inevitably disrupted, leading to a decline in usability. To address this issue, we propose X-Boundary to push harmful representations away from boundary-safe representations and obtain an exact distinction boundary. In this way, harmful representations can be precisely erased without disrupting safe ones. Experimental results show that X-Boundary achieves state-of-the-art defense performance against multi-turn jailbreaks, while reducing the over-refusal rate by about 20% and maintaining nearly complete general capability. Furthermore, we theoretically prove and empirically verify that X-Boundary can accelerate the convergence process during training. Please see our code at: https://github.com/AI45Lab/X-Boundary.

arxiv情報

著者 Xiaoya Lu,Dongrui Liu,Yi Yu,Luxin Xu,Jing Shao
発行日 2025-03-06 15:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV, cs.LG パーマリンク