Don’t Say No: Jailbreaking LLM by Suppressing Refusal

要約

人間の価値観と一致する応答を生成するには、大規模言語モデル (LLM) の安全性の調整を確保することが重要です。
LLM は、有害なクエリを認識して回避する能力があるにもかかわらず、慎重に作成されたプロンプトによって有害なコンテンツの生成を誘発する「脱獄」攻撃に対して脆弱です。
ジェイルブレイク攻撃の 1 つのカテゴリは、LLM に肯定的な応答を生成させることによって、敵対的攻撃としてタスクを再定式化することです。
ただし、このカテゴリの典型的な攻撃である GCG は、攻撃の成功率が非常に限られています。
この研究では、ジェイルブレイク攻撃をよりよく研究するために、LLM に肯定的な応答を生成するだけでなく、拒否を抑制する目的を新たに強化する DSN (Don’t Say No) 攻撃を導入します。
また、ジェイルブレイク攻撃では、攻撃の有害性を直接かつ正確に評価することが難しいため、その評価も課題となっています。
拒否キーワードのマッチングなどの既存の評価には、多数の偽陽性および偽陰性のインスタンスが明らかになるため、独自の制限があります。
この課題を克服するために、自然言語推論 (NLI) の矛盾評価と 2 つの外部 LLM 評価器を組み込んだアンサンブル評価パイプラインを提案します。
広範な実験により、ベースライン手法と比較した DSN の効力とアンサンブル評価の有効性が実証されています。

要約(オリジナル)

Ensuring the safety alignment of Large Language Models (LLMs) is crucial to generating responses consistent with human values. Despite their ability to recognize and avoid harmful queries, LLMs are vulnerable to ‘jailbreaking’ attacks, where carefully crafted prompts elicit them to produce toxic content. One category of jailbreak attacks is reformulating the task as adversarial attacks by eliciting the LLM to generate an affirmative response. However, the typical attack in this category GCG has very limited attack success rate. In this study, to better study the jailbreak attack, we introduce the DSN (Don’t Say No) attack, which prompts LLMs to not only generate affirmative responses but also novelly enhance the objective to suppress refusals. In addition, another challenge lies in jailbreak attacks is the evaluation, as it is difficult to directly and accurately assess the harmfulness of the attack. The existing evaluation such as refusal keyword matching has its own limitation as it reveals numerous false positive and false negative instances. To overcome this challenge, we propose an ensemble evaluation pipeline incorporating Natural Language Inference (NLI) contradiction assessment and two external LLM evaluators. Extensive experiments demonstrate the potency of the DSN and the effectiveness of ensemble evaluation compared to baseline methods.

arxiv情報

著者 Yukai Zhou,Wenjie Wang
発行日 2024-04-25 07:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク