Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation

要約

大規模な言語モデルを調整して無害な応答を生成する取り組みにもかかわらず、制限のない動作を誘発する脱獄プロンプトに対して依然として脆弱です。
この研究では、有害な指示に従おうとする人格を身につけるようにターゲット モデルを操作するブラック ボックス脱獄方法としてのペルソナ変調を調査します。
各ペルソナのプロンプトを手動で作成するのではなく、言語モデル アシスタントを使用してジェイルブレイクの生成を自動化します。
私たちは、メタンフェタミンの合成、爆弾の製造、資金洗浄の詳細な指示を含む、ペルソナ変調によって可能になるさまざまな有害な完成を実証します。
これらの自動攻撃は、GPT-4 では 42.5% という有害な完了率を達成しており、これは変調前 (0.23%) の 185 倍です。
これらのプロンプトはクロード 2 とビクーニャにも転送され、有害な完了率はそれぞれ 61.0% と 35.9% です。
私たちの研究により、商用の大規模言語モデルにさらに別の脆弱性が存在することが明らかになり、より包括的な保護手段の必要性が浮き彫りになりました。

要約(オリジナル)

Despite efforts to align large language models to produce harmless responses, they are still vulnerable to jailbreak prompts that elicit unrestricted behaviour. In this work, we investigate persona modulation as a black-box jailbreaking method to steer a target model to take on personalities that are willing to comply with harmful instructions. Rather than manually crafting prompts for each persona, we automate the generation of jailbreaks using a language model assistant. We demonstrate a range of harmful completions made possible by persona modulation, including detailed instructions for synthesising methamphetamine, building a bomb, and laundering money. These automated attacks achieve a harmful completion rate of 42.5% in GPT-4, which is 185 times larger than before modulation (0.23%). These prompts also transfer to Claude 2 and Vicuna with harmful completion rates of 61.0% and 35.9%, respectively. Our work reveals yet another vulnerability in commercial large language models and highlights the need for more comprehensive safeguards.

arxiv情報

著者 Rusheb Shah,Quentin Feuillade–Montixi,Soroush Pour,Arush Tagade,Stephen Casper,Javier Rando
発行日 2023-11-24 12:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク