Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation

要約

大規模な言語モデルを無害な応答を生成するように調整する努力にもかかわらず、無制限な行動を引き出す脱獄プロンプトに対して脆弱である。この研究では、ブラックボックス脱獄手法としてペルソナモジュレーションを研究し、有害な指示に従うような人格をターゲットモデルに持たせる。各ペルソナのプロンプトを手動で作成するのではなく、言語モデルアシスタントを使用してジェイルブレイクの生成を自動化する。我々は、ペルソナの変調によって可能となる、覚醒剤の合成、爆弾の製造、資金洗浄の詳細な指示を含む、様々な有害な完了を実証する。これらの自動化された攻撃は、GPT-4で42.5%の有害な完了率を達成し、これは変調前(0.23%)の185倍に相当する。これらのプロンプトはクロード2とビキューナにも転送され、それぞれ61.0%と35.9%の有害な完了率を示した。私たちの研究は、市販の大規模言語モデルの脆弱性をまたひとつ明らかにし、より包括的なセーフガードの必要性を強調している。

要約(オリジナル)

Despite efforts to align large language models to produce harmless responses, they are still vulnerable to jailbreak prompts that elicit unrestricted behaviour. In this work, we investigate persona modulation as a black-box jailbreaking method to steer a target model to take on personalities that are willing to comply with harmful instructions. Rather than manually crafting prompts for each persona, we automate the generation of jailbreaks using a language model assistant. We demonstrate a range of harmful completions made possible by persona modulation, including detailed instructions for synthesising methamphetamine, building a bomb, and laundering money. These automated attacks achieve a harmful completion rate of 42.5% in GPT-4, which is 185 times larger than before modulation (0.23%). These prompts also transfer to Claude 2 and Vicuna with harmful completion rates of 61.0% and 35.9%, respectively. Our work reveals yet another vulnerability in commercial large language models and highlights the need for more comprehensive safeguards.

arxiv情報

著者 Rusheb Shah,Quentin Feuillade–Montixi,Soroush Pour,Arush Tagade,Stephen Casper,Javier Rando
発行日 2023-11-06 18:55:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク