要約
有害な情報の生成を防ぐために道徳的調整に関する広範な事前トレーニングが行われているにもかかわらず、大規模言語モデル (LLM) は脱獄攻撃に対して脆弱なままです。
この論文では、LLM からの有害な応答をフィルタリングするマルチエージェント防御フレームワークである Auto Defense を提案します。
応答フィルタリング メカニズムを備えた当社のフレームワークは、さまざまなジェイルブレイク攻撃プロンプトに対して堅牢であり、さまざまな被害者モデルを防御するために使用できます。
Auto Defense は、LLM エージェントにさまざまな役割を割り当て、それらを採用して防御タスクを共同で完了します。
タスクの分割により、LLM の全体的な指示追従が強化され、他の防御コンポーネントをツールとして統合できるようになります。
Auto Defense を使用すると、小規模なオープンソース LM がエージェントとして機能し、ジェイルブレイク攻撃から大規模なモデルを防御できます。
私たちの実験では、Auto Defense が通常のユーザー要求に応じてパフォーマンスを維持しながら、さまざまなジェイルブレイク攻撃に対して効果的に防御できることを示しています。
たとえば、3 エージェント システムの LLaMA-2-13b を使用すると、GPT-3.5 に対する攻撃成功率が 55.74% から 7.95% に減少します。
私たちのコードとデータは https://github.com/XHMY/Auto Defense で公開されています。
要約(オリジナル)
Despite extensive pre-training in moral alignment to prevent generating harmful information, large language models (LLMs) remain vulnerable to jailbreak attacks. In this paper, we propose AutoDefense, a multi-agent defense framework that filters harmful responses from LLMs. With the response-filtering mechanism, our framework is robust against different jailbreak attack prompts, and can be used to defend different victim models. AutoDefense assigns different roles to LLM agents and employs them to complete the defense task collaboratively. The division in tasks enhances the overall instruction-following of LLMs and enables the integration of other defense components as tools. With AutoDefense, small open-source LMs can serve as agents and defend larger models against jailbreak attacks. Our experiments show that AutoDefense can effectively defense against different jailbreak attacks, while maintaining the performance at normal user request. For example, we reduce the attack success rate on GPT-3.5 from 55.74% to 7.95% using LLaMA-2-13b with a 3-agent system. Our code and data are publicly available at https://github.com/XHMY/AutoDefense.
arxiv情報
著者 | Yifan Zeng,Yiran Wu,Xiao Zhang,Huazheng Wang,Qingyun Wu |
発行日 | 2024-11-14 18:14:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google