Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization

要約

大規模言語モデル (LLM) の機能は進化し続けていますが、この進歩には安全性リスクの増大も伴います。
ジェイルブレイク攻撃を通じて LLM の弱点を悪用することに大きな注目が集まっていますが、これらの攻撃に対する防御に関する研究は依然として不足しています。
私たちは、脱獄の成功に寄与する極めて重要な要因、つまり役立つことと安全性の確保という目標の間にある本質的な矛盾を指摘します。
脱獄攻撃に対抗するために、トレーニング段階と推論段階の両方で目標の優先順位付けを統合することを提案します。
推論中に目標の優先順位付けを実装すると、一般的なパフォーマンスを損なうことなく、ジェイルブレイク攻撃の攻撃成功率 (ASR) が大幅に低下し、ChatGPT の場合は 66.4% から 2.0% に、Vicuna-33B の場合は 68.2% から 19.4% に減少します。
さらに、目標の優先順位付けの概念をトレーニング段階に統合することで、LLama2-13B の ASR が 71.0% から 6.6% に減少しました。
驚くべきことに、トレーニング中に脱獄サンプルが含まれていないシナリオでも、私たちのアプローチでは ASR が半分に削減され、71.0% から 34.0% に減少します。
さらに、私たちの調査結果は、より強力な LLM はより大きな安全上のリスクに直面する一方で、そのような攻撃に対する防御に向けてより大きな能力を備えていることも明らかにしています。
私たちの研究が脱獄の攻撃と防御の理解に貢献し、LLM の能力と安全性の関係に光を当てることができれば幸いです。
私たちのコードは \url{https://github.com/thu-coai/Jailbreak Defense_GoalPriority} で入手できます。

要約(オリジナル)

Large Language Models (LLMs) continue to advance in their capabilities, yet this progress is accompanied by a growing array of safety risks. While significant attention has been dedicated to exploiting weaknesses in LLMs through jailbreaking attacks, there remains a paucity of exploration into defending against these attacks. We point out a pivotal factor contributing to the success of jailbreaks: the inherent conflict between the goals of being helpful and ensuring safety. To counter jailbreaking attacks, we propose to integrate goal prioritization at both training and inference stages. Implementing goal prioritization during inference substantially diminishes the Attack Success Rate (ASR) of jailbreaking attacks, reducing it from 66.4% to 2.0% for ChatGPT and from 68.2% to 19.4% for Vicuna-33B, without compromising general performance. Furthermore, integrating the concept of goal prioritization into the training phase reduces the ASR from 71.0% to 6.6% for LLama2-13B. Remarkably, even in scenarios where no jailbreaking samples are included during training, our approach slashes the ASR by half, decreasing it from 71.0% to 34.0%. Additionally, our findings reveal that while stronger LLMs face greater safety risks, they also possess a greater capacity to be steered towards defending against such attacks. We hope our work could contribute to the comprehension of jailbreaking attacks and defenses, and shed light on the relationship between LLMs’ capability and safety. Our code will be available at \url{https://github.com/thu-coai/JailbreakDefense_GoalPriority}.

arxiv情報

著者 Zhexin Zhang,Junxiao Yang,Pei Ke,Minlie Huang
発行日 2023-11-15 16:42:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク