要約
大規模な言語モデル(LLM)は、安全性微調整方法を使用して人間の好みに合わせているにもかかわらず、不快なコンテンツの生成につながる、作られた敵対的な攻撃または脱獄の影響を受けやすいことが知られています。
入力トークンスペースの大きな次元は、これらのモデルを脱獄できる敵対的なプロンプトを見つけることを避けられませんが、安全性のあるLLMが整列後に安全な応答を誘発する有毒な種子プロンプトに意味的に関連する自然プロンプトに対して安全であるかどうかを評価することを目指しています。
驚くべきことに、GPT-4などの人気のある整列LLMは、モデルを侵入する目的でも作成されていない素朴なプロンプトを使用して妥協できることがわかりました。
さらに、整理されていないモデルから有毒な応答を誘発するシードプロンプトを与えられた場合、LLMを脱獄できるいくつかの意味的に関連する自然プロンプトを体系的に生成できることを経験的に示します。
これに向けて、応答の方法ガイド付き質問増強(reg-qa)を提案して、安全性に合わせたLLMの一般化を自然なプロンプトに評価します。これは、最初に整理されていないLLMを使用して種子の質問を与えられて、LLMをさらに活用して、これらの回答を生成する可能性のある質問を生成するためにさらにレバレッジ(Q)を生成することを提案します。
興味深いことに、GPT-4Oなどの安全性微調整LLMは、安全でないコンテンツ(拒否なし)から自然な脱獄の質問を生成することに対して脆弱であり、後者(AからQ)ステップに使用できることがわかります。
Jailbreakbench Leaderboardの主要な敵対的な攻撃方法に匹敵する/優れた攻撃成功率を取得しますが、リーダーボードの既存のすべての攻撃に対して効果的なSmooth-LLMや同義語代替などの防御に対しては大幅に安定しています。
要約(オリジナル)
Large Language Models (LLMs) are known to be susceptible to crafted adversarial attacks or jailbreaks that lead to the generation of objectionable content despite being aligned to human preferences using safety fine-tuning methods. While the large dimensionality of input token space makes it inevitable to find adversarial prompts that can jailbreak these models, we aim to evaluate whether safety fine-tuned LLMs are safe against natural prompts which are semantically related to toxic seed prompts that elicit safe responses after alignment. We surprisingly find that popular aligned LLMs such as GPT-4 can be compromised using naive prompts that are NOT even crafted with an objective of jailbreaking the model. Furthermore, we empirically show that given a seed prompt that elicits a toxic response from an unaligned model, one can systematically generate several semantically related natural prompts that can jailbreak aligned LLMs. Towards this, we propose a method of Response Guided Question Augmentation (ReG-QA) to evaluate the generalization of safety aligned LLMs to natural prompts, that first generates several toxic answers given a seed question using an unaligned LLM (Q to A), and further leverages an LLM to generate questions that are likely to produce these answers (A to Q). We interestingly find that safety fine-tuned LLMs such as GPT-4o are vulnerable to producing natural jailbreak questions from unsafe content (without denial) and can thus be used for the latter (A to Q) step. We obtain attack success rates that are comparable to/ better than leading adversarial attack methods on the JailbreakBench leaderboard, while being significantly more stable against defenses such as Smooth-LLM and Synonym Substitution, which are effective against existing all attacks on the leaderboard.
arxiv情報
著者 | Sravanti Addepalli,Yerram Varun,Arun Suggala,Karthikeyan Shanmugam,Prateek Jain |
発行日 | 2025-03-25 12:49:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google