AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models

要約

ジェイルブレイク攻撃は最も高度な脅威の 1 つであるため、攻撃に対する大規模言語モデル (LLM) のセキュリティを確保することがますます緊急になっています。
このようなリスクに対処するために、LLM に対するジェイルブレイク攻撃の有効性を評価するのに役立つ革新的なフレームワークを導入します。
LLM の堅牢性にのみ焦点を当てた従来のバイナリ評価とは異なり、私たちの方法では、攻撃プロンプト自体の有効性を評価します。
我々は、粗粒度評価と細粒度評価という 2 つの異なる評価フレームワークを提示します。
各フレームワークは 0 から 1 までのスコア範囲を使用し、独自の視点を提供し、さまざまなシナリオでの攻撃の有効性の評価を可能にします。
さらに、脱獄プロンプトに特化した包括的なグラウンド トゥルース データセットを開発します。
このデータセットは、現在の研究の重要なベンチマークとして機能し、将来の研究のための基礎的なリソースを提供します。
従来の評価方法と比較することで、私たちの研究は、現在の結果がベースライン指標と一致しており、より微妙で細かい評価を提供していることを示しています。
また、従来の評価では無害に見えた、潜在的に有害な攻撃プロンプトを特定するのにも役立ちます。
全体として、私たちの研究は、プロンプト インジェクションの分野におけるより広範囲の攻撃プロンプトを評価するための強固な基盤を確立します。

要約(オリジナル)

Ensuring the security of large language models (LLMs) against attacks has become increasingly urgent, with jailbreak attacks representing one of the most sophisticated threats. To deal with such risks, we introduce an innovative framework that can help evaluate the effectiveness of jailbreak attacks on LLMs. Unlike traditional binary evaluations focusing solely on the robustness of LLMs, our method assesses the effectiveness of the attacking prompts themselves. We present two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework uses a scoring range from 0 to 1, offering unique perspectives and allowing for the assessment of attack effectiveness in different scenarios. Additionally, we develop a comprehensive ground truth dataset specifically tailored for jailbreak prompts. This dataset serves as a crucial benchmark for our current study and provides a foundational resource for future research. By comparing with traditional evaluation methods, our study shows that the current results align with baseline metrics while offering a more nuanced and fine-grained assessment. It also helps identify potentially harmful attack prompts that might appear harmless in traditional evaluations. Overall, our work establishes a solid foundation for assessing a broader range of attack prompts in the area of prompt injection.

arxiv情報

著者 Dong shu,Mingyu Jin,Chong Zhang,Liangyao Li,Zihao Zhou,Yongfeng Zhang
発行日 2024-07-31 06:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク