Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts?

要約

大規模言語モデル (LLM) は、安全性の微調整方法を使用して人間の好みに合わせているにもかかわらず、巧妙に作られた敵対的攻撃や脱獄の影響を受けやすいことが知られており、不快なコンテンツの生成につながります。
入力トークン空間の次元が大きいため、これらのモデルを脱獄できる敵対的プロンプトを見つけることは避けられませんが、私たちは、安全性を微調整した LLM が、アライメント後に安全な応答を引き出す有害なシード プロンプトと意味的に関連する自然なプロンプトに対して安全であるかどうかを評価することを目的としています。

驚くべきことに、GPT-4 などの一般的な調整済み LLM は、モデルを脱獄する目的でさえ作成されていない単純なプロンプトを使用して侵害される可能性があることがわかりました。
さらに、アライメントされていないモデルから有毒な応答を誘発するシード プロンプトが与えられた場合、アライメントされた LLM をジェイルブレイクできる、意味的に関連するいくつかの自然なプロンプトを体系的に生成できることを経験的に示します。
これに向けて、私たちは、安全性を調整した LLM の自然なプロンプトへの一般化を評価するための応答ガイド付き質問拡張 (ReG-QA) の方法を提案します。この方法では、最初に、調整されていない LLM (Q to A) を使用してシード質問が与えられた場合に、いくつかの有毒な回答を生成します。
さらに、LLM を活用して、これらの回答 (A ~ Q) を生成する可能性のある質問を生成します。
興味深いことに、GPT-4o などの安全性に調整された LLM は、安全でないコンテンツから (拒否なしで) 自然なジェイルブレイク質問を生成することに対して脆弱であるため、後者 (A から Q) のステップに使用できることがわかりました。
JailbreakBench リーダーボードの主要な敵対的攻撃手法と同等またはそれ以上の攻撃成功率が得られますが、同時に、リーダーボード上の既存のすべての攻撃に対して効果的な Smooth-LLM や同義語置換などの防御に対しても大幅に安定しています。

要約(オリジナル)

Large Language Models (LLMs) are known to be susceptible to crafted adversarial attacks or jailbreaks that lead to the generation of objectionable content despite being aligned to human preferences using safety fine-tuning methods. While the large dimensionality of input token space makes it inevitable to find adversarial prompts that can jailbreak these models, we aim to evaluate whether safety fine-tuned LLMs are safe against natural prompts which are semantically related to toxic seed prompts that elicit safe responses after alignment. We surprisingly find that popular aligned LLMs such as GPT-4 can be compromised using naive prompts that are NOT even crafted with an objective of jailbreaking the model. Furthermore, we empirically show that given a seed prompt that elicits a toxic response from an unaligned model, one can systematically generate several semantically related natural prompts that can jailbreak aligned LLMs. Towards this, we propose a method of Response Guided Question Augmentation (ReG-QA) to evaluate the generalization of safety aligned LLMs to natural prompts, that first generates several toxic answers given a seed question using an unaligned LLM (Q to A), and further leverages an LLM to generate questions that are likely to produce these answers (A to Q). We interestingly find that safety fine-tuned LLMs such as GPT-4o are vulnerable to producing natural jailbreak questions from unsafe content (without denial) and can thus be used for the latter (A to Q) step. We obtain attack success rates that are comparable to/ better than leading adversarial attack methods on the JailbreakBench leaderboard, while being significantly more stable against defenses such as Smooth-LLM and Synonym Substitution, which are effective against existing all attacks on the leaderboard.

arxiv情報

著者 Sravanti Addepalli,Yerram Varun,Arun Suggala,Karthikeyan Shanmugam,Prateek Jain
発行日 2024-12-04 11:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク