LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet

要約

最近の大規模言語モデル (LLM) 防御により、たとえ敵対的攻撃を受けた場合でも、有害なクエリを拒否するモデルの能力が大幅に向上しました。
ただし、LLM 防御は主に 1 回の会話で自動化された敵対的攻撃に対して評価されるため、実際の悪意のある使用には不十分な脅威モデルです。
私たちは、自動化されたシングルターン攻撃で 1 桁の ASR を報告する防御に対して、HarmBench での攻撃成功率 (ASR) が 70% を超える、複数ターンの人間によるジェイルブレイクによって重大な脆弱性を発見することを実証しました。
人間による脱獄では、機械の未学習防御の脆弱性も明らかになり、未学習モデルから二重用途のバイオセキュリティ知識を回復することに成功しました。
これらの結果を、537 回のマルチターン ジェイルブレイクにわたる 2,912 のプロンプトのデータセットである Multi-Turn Human Jailbreaks (MHJ) にコンパイルします。
私たちは、数十の商用レッドチーム活動を通じて開発された脱獄戦術の概要とともに MHJ を一般公開し、LLM 防御の強化に向けた研究をサポートしています。

要約(オリジナル)

Recent large language model (LLM) defenses have greatly improved models’ ability to refuse harmful queries, even when adversarially attacked. However, LLM defenses are primarily evaluated against automated adversarial attacks in a single turn of conversation, an insufficient threat model for real-world malicious use. We demonstrate that multi-turn human jailbreaks uncover significant vulnerabilities, exceeding 70% attack success rate (ASR) on HarmBench against defenses that report single-digit ASRs with automated single-turn attacks. Human jailbreaks also reveal vulnerabilities in machine unlearning defenses, successfully recovering dual-use biosecurity knowledge from unlearned models. We compile these results into Multi-Turn Human Jailbreaks (MHJ), a dataset of 2,912 prompts across 537 multi-turn jailbreaks. We publicly release MHJ alongside a compendium of jailbreak tactics developed across dozens of commercial red teaming engagements, supporting research towards stronger LLM defenses.

arxiv情報

著者 Nathaniel Li,Ziwen Han,Ian Steneker,Willow Primack,Riley Goodside,Hugh Zhang,Zifan Wang,Cristina Menghini,Summer Yue
発行日 2024-08-27 17:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CY, cs.LG パーマリンク