BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models

要約

大規模言語モデル (LLM) は、さまざまなタスクにおいて優れた熟練度を示しますが、悪意のある入力によって LLM が安全調整を回避して有害なコンテンツを生成するよう強制される「ジェイルブレイク」など、潜在的な安全上のリスクが存在します。
この論文では、LLM の倫理的バイアスを詳しく掘り下げ、それらのバイアスが脱獄にどのように悪用されるかを検証します。
特に、これらのバイアスにより、プロンプトの他の部分が同一であっても、GPT-4o モデルの脱獄成功率は、非バイナリ キーワードとシスジェンダー キーワードの間で 20%、白人キーワードと黒人キーワードの間で 16% の差が生じます。
BiasJailbreak の概念を紹介し、安全性に起因するバイアスによってもたらされる固有のリスクを強調します。
BiasJailbreak は、ターゲット LLM 自体に問い合わせることによってバイアスされたキーワードを自動的に生成し、そのキーワードを利用して有害な出力を生成します。
さらに、生成前に防御プロンプトを挿入することでジェイルブレイクの試みを防ぐ、効率的な防御方法 Bias Defense を提案します。
Bias Defense は、テキスト生成後に追加の推論コストを必要とする Llama-Guard などの Guard モデルに代わる魅力的な代替手段として機能します。
私たちの調査結果は、LLM の倫理的バイアスが実際に安全でない出力の生成につながる可能性があることを強調し、LLM をより安全でバイアスのないものにする方法を示唆しています。
さらなる研究と改善を可能にするために、BiasJailbreak のコードとアーティファクトをオープンソース化し、LLM の安全性に起因するバイアスをより深く理解し、軽減するためのツールをコミュニティに提供します。

要約(オリジナル)

Although large language models (LLMs) demonstrate impressive proficiency in various tasks, they present potential safety risks, such as `jailbreaks’, where malicious inputs can coerce LLMs into generating harmful content bypassing safety alignments. In this paper, we delve into the ethical biases in LLMs and examine how those biases could be exploited for jailbreaks. Notably, these biases result in a jailbreaking success rate in GPT-4o models that differs by 20\% between non-binary and cisgender keywords and by 16\% between white and black keywords, even when the other parts of the prompts are identical. We introduce the concept of BiasJailbreak, highlighting the inherent risks posed by these safety-induced biases. BiasJailbreak generates biased keywords automatically by asking the target LLM itself, and utilizes the keywords to generate harmful output. Additionally, we propose an efficient defense method BiasDefense, which prevents jailbreak attempts by injecting defense prompts prior to generation. BiasDefense stands as an appealing alternative to Guard Models, such as Llama-Guard, that require additional inference cost after text generation. Our findings emphasize that ethical biases in LLMs can actually lead to generating unsafe output, and suggest a method to make the LLMs more secure and unbiased. To enable further research and improvements, we open-source our code and artifacts of BiasJailbreak, providing the community with tools to better understand and mitigate safety-induced biases in LLMs.

arxiv情報

著者 Isack Lee,Haebin Seong
発行日 2025-01-02 04:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク