SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance

要約

大規模言語モデル (LLM) の開発が急速に進むにつれて、実用性を損なうことなくこれらのモデルを効果的に保護することが重要な研究分野になっています。
しかし、ジェイルブレイク攻撃に対する現在の防御戦略 (つまり、セキュリティ プロトコルをバイパスする取り組み) は、適応性の制限、一般的な機能の制限、およびコストの高さに悩まされることがよくあります。
これらの課題に対処するために、ジェイルブレイク攻撃に対する防御を強化するためにデコード段階で実装される方法論である SafeAligner を導入します。
まず、2 つの特殊なモデルを開発することから始めます。1 つは安全性を促進するように訓練された Sentinel モデル、もう 1 つはより危険な対応を生成するように設計された Intruder モデルです。
SafeAligner は、これらのモデルからの応答間のセキュリティ レベルの差異を利用して、有害なトークンと有益なトークンを区別し、ターゲット モデルの出力トークンの分布を変更することで安全性の調整を効果的に導きます。
広範な実験により、SafeAligner は有害なトークンの発生を減らしながら有益なトークンの可能性を高め、それによって一般性の損失を最小限に抑えながら安全な位置合わせを確保できることが示されています。

要約(オリジナル)

As the development of large language models (LLMs) rapidly advances, securing these models effectively without compromising their utility has become a pivotal area of research. However, current defense strategies against jailbreak attacks (i.e., efforts to bypass security protocols) often suffer from limited adaptability, restricted general capability, and high cost. To address these challenges, we introduce SafeAligner, a methodology implemented at the decoding stage to fortify defenses against jailbreak attacks. We begin by developing two specialized models: the Sentinel Model, which is trained to foster safety, and the Intruder Model, designed to generate riskier responses. SafeAligner leverages the disparity in security levels between the responses from these models to differentiate between harmful and beneficial tokens, effectively guiding the safety alignment by altering the output token distribution of the target model. Extensive experiments show that SafeAligner can increase the likelihood of beneficial tokens, while reducing the occurrence of harmful ones, thereby ensuring secure alignment with minimal loss to generality.

arxiv情報

著者 Caishuang Huang,Wanxu Zhao,Rui Zheng,Huijie Lv,Wenyu Zhan,Shihan Dou,Sixian Li,Xiao Wang,Enyu Zhou,Junjie Ye,Yuming Yang,Tao Gui,Qi Zhang,Xuanjing Huang
発行日 2024-12-24 14:26:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク