CySecBench: Generative AI-based CyberSecurity-focused Prompt Dataset for Benchmarking Large Language Models

要約

大規模言語モデル(Large Language Models:LLM)をジェイルブレイクして有害なコンテンツを生成する方法については、数多くの研究が行われている。通常、これらの方法は、LLMプロバイダによって確立されたセキュリティポリシーをバイパスするように設計された悪意のあるプロンプトのデータセットを使用して評価される。しかし、既存のデータセットの一般的に広い範囲とオープンエンドの性質は、特にサイバーセキュリティなどの特定のドメインにおいて、ジェイルブレイキングの有効性の評価を複雑にする可能性がある。この問題に対処するために、我々は、サイバーセキュリティ領域における脱獄技術を評価するために特別に設計された12662のプロンプトを含む包括的なデータセットであるCySecBenchを提示し、公開する。このデータセットは、脱獄の試みのより一貫性のある正確な評価を可能にするために、クローズエンド型のプロンプトを特徴とする10の明確な攻撃タイプのカテゴリに編成されています。さらに、データセットの生成とフィルタリングの方法論について詳述しており、これは他のドメインで同様のデータセットを作成するために適応させることができる。CySecBenchの有用性を実証するために、プロンプトの難読化に基づく脱獄アプローチを提案し、評価する。私たちの実験結果は、この手法が市販のブラックボックスLLMから有害なコンテンツを引き出すことに成功し、ChatGPTで65%、Geminiで88%の成功率(SR)を達成したことを示しています。対照的に、Claudeは17%の脱獄SRを示し、より高い耐性を示しました。既存のベンチマークアプローチと比較して、我々の方法は優れた性能を示し、LLMのセキュリティ対策を評価するためのドメイン固有の評価データセットの価値を強調しています。さらに、広く使用されているデータセット(すなわち、AdvBench)のプロンプトを使用して評価した場合、78.5%のSRを達成し、最先端の手法よりも高い。

要約(オリジナル)

Numerous studies have investigated methods for jailbreaking Large Language Models (LLMs) to generate harmful content. Typically, these methods are evaluated using datasets of malicious prompts designed to bypass security policies established by LLM providers. However, the generally broad scope and open-ended nature of existing datasets can complicate the assessment of jailbreaking effectiveness, particularly in specific domains, notably cybersecurity. To address this issue, we present and publicly release CySecBench, a comprehensive dataset containing 12662 prompts specifically designed to evaluate jailbreaking techniques in the cybersecurity domain. The dataset is organized into 10 distinct attack-type categories, featuring close-ended prompts to enable a more consistent and accurate assessment of jailbreaking attempts. Furthermore, we detail our methodology for dataset generation and filtration, which can be adapted to create similar datasets in other domains. To demonstrate the utility of CySecBench, we propose and evaluate a jailbreaking approach based on prompt obfuscation. Our experimental results show that this method successfully elicits harmful content from commercial black-box LLMs, achieving Success Rates (SRs) of 65% with ChatGPT and 88% with Gemini; in contrast, Claude demonstrated greater resilience with a jailbreaking SR of 17%. Compared to existing benchmark approaches, our method shows superior performance, highlighting the value of domain-specific evaluation datasets for assessing LLM security measures. Moreover, when evaluated using prompts from a widely used dataset (i.e., AdvBench), it achieved an SR of 78.5%, higher than the state-of-the-art methods.

arxiv情報

著者 Johan Wahréus,Ahmed Mohamed Hussain,Panos Papadimitratos
発行日 2025-01-02 16:37:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク