Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes

要約

Large Language Model (LLM) は、ユーザーがクエリを入力すると、LLM が回答を生成する、有力な生成 AI ツールになりつつあります。
危害や誤用を減らすために、ヒューマン フィードバックからの強化学習 (RLHF) などの高度なトレーニング技術を使用して、これらの LLM を人間の価値観に合わせる取り組みが行われてきました。
しかし、最近の研究では、埋め込まれた安全ガードレールを破壊することを目的とした敵対的なジェイルブレイクの試みに対する LLM の脆弱性が浮き彫りになっています。
この課題に対処するために、この論文では LLM の拒否損失を定義して調査し、ジェイルブレイクの試みを検出するための Gradient Cuff と呼ばれる方法を提案します。
Gradient Cuff は、関数値やその滑らかさなど、拒否損失の状況で観察される固有の特性を利用して、効果的な 2 段階の検出戦略を設計します。
2 つの調整された LLM (LLaMA-2-7B-Chat および Vicuna-7B-V1.5) と 6 種類のジェイルブレイク攻撃 (GCG、AutoDAN、PAIR、TAP、Base64、および LRL) に関する実験結果は、Gradient Cuff が大幅に改善できることを示しています。
検出しきい値を調整することで、悪意のないユーザー クエリに対するモデルのパフォーマンスを維持しながら、悪意のある脱獄クエリに対する LLM の拒否機能。

要約(オリジナル)

Large Language Models (LLMs) are becoming a prominent generative AI tool, where the user enters a query and the LLM generates an answer. To reduce harm and misuse, efforts have been made to align these LLMs to human values using advanced training techniques such as Reinforcement Learning from Human Feedback (RLHF). However, recent studies have highlighted the vulnerability of LLMs to adversarial jailbreak attempts aiming at subverting the embedded safety guardrails. To address this challenge, this paper defines and investigates the Refusal Loss of LLMs and then proposes a method called Gradient Cuff to detect jailbreak attempts. Gradient Cuff exploits the unique properties observed in the refusal loss landscape, including functional values and its smoothness, to design an effective two-step detection strategy. Experimental results on two aligned LLMs (LLaMA-2-7B-Chat and Vicuna-7B-V1.5) and six types of jailbreak attacks (GCG, AutoDAN, PAIR, TAP, Base64, and LRL) show that Gradient Cuff can significantly improve the LLM’s rejection capability for malicious jailbreak queries, while maintaining the model’s performance for benign user queries by adjusting the detection threshold.

arxiv情報

著者 Xiaomeng Hu,Pin-Yu Chen,Tsung-Yi Ho
発行日 2024-11-07 15:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク