RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent

要約

最近、GPT-4 などの高度なラージ言語モデル (LLM) が、Code Copilot などの多くの実世界のアプリケーションに統合されています。
これらのアプリケーションは LLM の攻撃対象領域を大幅に拡大し、LLM をさまざまな脅威にさらしています。
中でも、脱獄プロンプトを通じて有毒な反応を誘発する脱獄攻撃は、重大な安全上の懸念を引き起こしています。
これらの脅威を特定するために、ジェイルブレイク プロンプトを作成してターゲット LLM をテストすることで、潜在的な敵対シナリオをシミュレートするレッド チーム アプローチが増えています。
ただし、既存のレッド チーム手法では、さまざまなシナリオにおける LLM 固有の脆弱性が考慮されていないため、コンテキスト固有の脆弱性を見つけるために脱獄プロンプトを調整することが困難になります。
一方、これらの方法は、いくつかの突然変異操作を使用してジェイルブレイク テンプレートを改良することに限定されており、さまざまなシナリオに適応するための自動化や拡張性が欠けています。
コンテキストを認識した効率的なレッド チーム化を可能にするために、既存の攻撃を「脱獄戦略」と呼ばれる一貫した概念に抽象化してモデル化し、これらの戦略を活用してコンテキストを認識した脱獄プロンプトを生成する RedAgent という名前のマルチエージェント LLM システムを提案します。
追加のメモリ バッファーでコンテキスト フィードバックを自己反映することで、RedAgent はこれらの戦略を活用して特定のコンテキストで効果的なジェイルブレイクを実現する方法を継続的に学習します。
広範な実験により、私たちのシステムはわずか 5 つのクエリでほとんどのブラックボックス LLM をジェイルブレイクでき、既存のレッド チーム手法の効率が 2 倍向上することが実証されました。
さらに、RedAgent は、カスタマイズされた LLM アプリケーションをより効率的にジェイルブレイクできます。
GPT 上のアプリケーションに対してコンテキスト認識型ジェイルブレイク プロンプトを生成することにより、脆弱性ごとにわずか 2 つのクエリでこれらの現実世界のアプリケーションの 60 件の重大な脆弱性を発見しました。
私たちは見つかった問題をすべて報告し、バグ修正について OpenAI および Meta と連絡を取りました。

要約(オリジナル)

Recently, advanced Large Language Models (LLMs) such as GPT-4 have been integrated into many real-world applications like Code Copilot. These applications have significantly expanded the attack surface of LLMs, exposing them to a variety of threats. Among them, jailbreak attacks that induce toxic responses through jailbreak prompts have raised critical safety concerns. To identify these threats, a growing number of red teaming approaches simulate potential adversarial scenarios by crafting jailbreak prompts to test the target LLM. However, existing red teaming methods do not consider the unique vulnerabilities of LLM in different scenarios, making it difficult to adjust the jailbreak prompts to find context-specific vulnerabilities. Meanwhile, these methods are limited to refining jailbreak templates using a few mutation operations, lacking the automation and scalability to adapt to different scenarios. To enable context-aware and efficient red teaming, we abstract and model existing attacks into a coherent concept called ‘jailbreak strategy’ and propose a multi-agent LLM system named RedAgent that leverages these strategies to generate context-aware jailbreak prompts. By self-reflecting on contextual feedback in an additional memory buffer, RedAgent continuously learns how to leverage these strategies to achieve effective jailbreaks in specific contexts. Extensive experiments demonstrate that our system can jailbreak most black-box LLMs in just five queries, improving the efficiency of existing red teaming methods by two times. Additionally, RedAgent can jailbreak customized LLM applications more efficiently. By generating context-aware jailbreak prompts towards applications on GPTs, we discover 60 severe vulnerabilities of these real-world applications with only two queries per vulnerability. We have reported all found issues and communicated with OpenAI and Meta for bug fixes.

arxiv情報

著者 Huiyu Xu,Wenhui Zhang,Zhibo Wang,Feng Xiao,Rui Zheng,Yunhe Feng,Zhongjie Ba,Kui Ren
発行日 2024-07-23 17:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク