Comprehensive Assessment of Jailbreak Attacks Against LLMs

要約

脱獄攻撃は、LLM の保護手段を回避することを目的としています。
研究者たちはさまざまなジェイルブレイク攻撃を詳しく研究してきましたが、実験設定を統一していない、または限られた範囲の手法を比較したなど、個別に研究を行ってきました。
このギャップを埋めるために、さまざまなジェイルブレイク攻撃手法の最初の大規模な測定を紹介します。
17 の最先端の脱獄方法を収集し、その特徴を要約し、新しい脱獄攻撃分類法を確立します。
8 つの一般的な検閲済み LLM と 16 の違反カテゴリからの 160 の質問に基づいて、攻撃の有効性の統一的かつ公平な評価と包括的なアブレーション研究を実施します。
私たちの広範な実験結果は、すべてのジェイルブレイク攻撃が LLM に強力な影響を与えることを示しています。
これは、すべての LLM がすべての違反カテゴリをカバーできず、重大なジェイルブレイクのリスクにさらされやすく、適切に調整された Llama3 でさえ最大攻撃成功率 0.88 に直面していることを示しています。
さらに、8 つの高度な外部防御の下でジェイルブレイク攻撃をテストしましたが、どの防御もジェイルブレイク攻撃を完全に軽減できないことがわかりました。
私たちの研究は、脱獄攻撃と防御に関する将来の研究に貴重な洞察を提供し、研究者や実践者がそれらを効果的に評価するためのベンチマーク ツールとして機能します。

要約(オリジナル)

Jailbreak attacks aim to bypass the safeguards of LLMs. While researchers have studied different jailbreak attacks in depth, they have done so in isolation — either with unaligned experiment settings or comparing a limited range of methods. To fill this gap, we present the first large-scale measurement of various jailbreak attack methods. We collect 17 cutting-edge jailbreak methods, summarize their features, and establish a novel jailbreak attack taxonomy. Based on eight popular censored LLMs and 160 questions from 16 violation categories, we conduct a unified and impartial assessment of attack effectiveness as well as a comprehensive ablation study. Our extensive experimental results demonstrate that all the jailbreak attacks have a powerful effect on the LLMs. This indicates that all LLMs fail to cover all the violation categories, and they are susceptible to significant jailbreak risks, with even the well-aligned Llama3 facing a maximum attack success rate of 0.88. Additionally, we test jailbreak attacks under eight advanced external defenses and find none of the defenses could mitigate the jailbreak attacks entirely. Our study offers valuable insights for future research on jailbreak attacks and defenses and serves as a benchmark tool for researchers and practitioners to evaluate them effectively.

arxiv情報

著者 Junjie Chu,Yugeng Liu,Ziqing Yang,Xinyue Shen,Michael Backes,Yang Zhang
発行日 2024-12-16 15:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク