Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs

要約

Large Language Model (LLM) は、複雑なタスクをゼロショットで実行する際に優れた機能を実証していますが、脱獄攻撃を受けやすく、操作されて有害な出力が生成される可能性があります。
最近、脱獄攻撃をトークンレベル攻撃とプロンプトレベル攻撃に分類する研究が増えています。
しかし、これまでの研究では主に脱獄攻撃の多様な重要な要素が見落とされており、ほとんどの研究は LLM の脆弱性に焦点を当てており、防御が強化された LLM の調査が不足していました。
これらの問題に対処するために、LLM パフォーマンスに対するさまざまな攻撃設定の影響を評価し、ジェイルブレイク攻撃のベースライン ベンチマークを提供して、標準化された評価フレームワークの採用を奨励します。
具体的には、LLM にジェイルブレイク攻撃を実装するための 8 つの主要な要素を、ターゲット レベルと攻撃レベルの両方の観点から評価します。
さらに、広く使用されている 2 つのデータセットにわたる 6 つの防御方法に対して 7 つの代表的なジェイルブレイク攻撃を実施し、A800-80G で約 50,000 GPU 時間の約 320 回の実験を実施しました。
私たちの実験結果は、防御が強化された LLM に対するこれらの攻撃を評価するための標準化されたベンチマークの必要性を浮き彫りにしています。
私たちのコードは https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking で入手できます。

要約(オリジナル)

Although Large Language Models (LLMs) have demonstrated significant capabilities in executing complex tasks in a zero-shot manner, they are susceptible to jailbreak attacks and can be manipulated to produce harmful outputs. Recently, a growing body of research has categorized jailbreak attacks into token-level and prompt-level attacks. However, previous work primarily overlooks the diverse key factors of jailbreak attacks, with most studies concentrating on LLM vulnerabilities and lacking exploration of defense-enhanced LLMs. To address these issues, we evaluate the impact of various attack settings on LLM performance and provide a baseline benchmark for jailbreak attacks, encouraging the adoption of a standardized evaluation framework. Specifically, we evaluate the eight key factors of implementing jailbreak attacks on LLMs from both target-level and attack-level perspectives. We further conduct seven representative jailbreak attacks on six defense methods across two widely used datasets, encompassing approximately 320 experiments with about 50,000 GPU hours on A800-80G. Our experimental results highlight the need for standardized benchmarking to evaluate these attacks on defense-enhanced LLMs. Our code is available at https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking.

arxiv情報

著者 Zhao Xu,Fan Liu,Hao Liu
発行日 2024-06-13 17:01:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク