GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts

要約

大規模言語モデル (LLM) は最近非常に人気があり、カジュアルな会話から AI 駆動のプログラミングまで幅広く使用されています。
ただし、LLM は大きな成功を収めているにもかかわらず、完全に信頼できるわけではなく、有害な活動や違法な活動を行う方法について詳細な指導を行うことができます。
安全対策によりそのような出力のリスクは軽減できますが、敵対的な脱獄攻撃によって LLM が悪用されて有害なコンテンツが生成される可能性があります。
これらのジェイルブレイク テンプレートは通常、手動で作成されるため、大規模なテストが困難になります。
このペーパーでは、AFL ファジング フレームワークからインスピレーションを得た新しいブラックボックス ジェイルブレイク ファジング フレームワークである GPTFuzz を紹介します。
GPTFuzz は手動エンジニアリングの代わりに、レッドチーム LLM のジェイルブレイク テンプレートの生成を自動化します。
GPTFuzz の核となるのは、人間が作成したテンプレートを初期シードとして使用し、それを変更して新しいテンプレートを生成することです。
GPTFuzz の 3 つの主要なコンポーネントについて詳しく説明します。効率と変動性のバランスを取るためのシード選択戦略、意味的に同等または類似の文を作成するための変異演算子、ジェイルブレイク攻撃の成功を評価するための判断モデルです。
さまざまな攻撃シナリオの下で、ChatGPT、LLaMa-2、Vicuna などのさまざまな商用およびオープンソース LLM に対して GPTFuzz を評価します。
私たちの結果は、GPTFuzz が一貫して高い成功率で脱獄テンプレートを生成し、人間が作成したテンプレートを上回っていることを示しています。
注目すべきことに、GPTFuzz は、初期シード テンプレートが最適ではない場合でも、ChatGPT および Llama-2 モデルに対して 90% 以上の攻撃成功率を達成しています。
私たちは、GPTFuzz が研究者や専門家にとって LLM の堅牢性を調べるのに役立ち、LLM の安全性を強化するためのさらなる探究を促すことを期待しています。

要約(オリジナル)

Large language models (LLMs) have recently experienced tremendous popularity and are widely used from casual conversations to AI-driven programming. However, despite their considerable success, LLMs are not entirely reliable and can give detailed guidance on how to conduct harmful or illegal activities. While safety measures can reduce the risk of such outputs, adversarial jailbreak attacks can still exploit LLMs to produce harmful content. These jailbreak templates are typically manually crafted, making large-scale testing challenging. In this paper, we introduce GPTFuzz, a novel black-box jailbreak fuzzing framework inspired by the AFL fuzzing framework. Instead of manual engineering, GPTFuzz automates the generation of jailbreak templates for red-teaming LLMs. At its core, GPTFuzz starts with human-written templates as initial seeds, then mutates them to produce new templates. We detail three key components of GPTFuzz: a seed selection strategy for balancing efficiency and variability, mutate operators for creating semantically equivalent or similar sentences, and a judgment model to assess the success of a jailbreak attack. We evaluate GPTFuzz against various commercial and open-source LLMs, including ChatGPT, LLaMa-2, and Vicuna, under diverse attack scenarios. Our results indicate that GPTFuzz consistently produces jailbreak templates with a high success rate, surpassing human-crafted templates. Remarkably, GPTFuzz achieves over 90% attack success rates against ChatGPT and Llama-2 models, even with suboptimal initial seed templates. We anticipate that GPTFuzz will be instrumental for researchers and practitioners in examining LLM robustness and will encourage further exploration into enhancing LLM safety.

arxiv情報

著者 Jiahao Yu,Xingwei Lin,Zheng Yu,Xinyu Xing
発行日 2024-06-24 15:34:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク