Combating Adversarial Attacks with Multi-Agent Debate

要約

最先端の言語モデルは目覚ましい結果を達成しましたが、レッド チーム arXiv:2209.07858 によって生成された敵対的プロンプトなど、推論時の敵対的攻撃の影響を受けやすいままです。
言語モデル生成の全体的な品質を向上させるために提案されたアプローチの 1 つは、言語モデルがディスカッションとフィードバックを通じて自己評価するマルチエージェント ディベートです (arXiv:2305.14325)。
現在の最先端の言語モデル間でマルチエージェントの議論を実装し、シングルエージェント設定とマルチエージェント設定の両方でレッドチーム攻撃に対するモデルの感受性を評価します。
ジェイルブレイクされたモデルまたは能力の低いモデルが、ジェイルブレイクされていないモデルまたはより能力の高いモデルとディベートを強制される場合、マルチエージェントのディベートによってモデルの毒性が軽減されることがわかりました。
また、マルチエージェント インタラクションを一般的に使用することによって、わずかな改善が見られることもわかりました。
さらに、埋め込みクラスタリングを介して敵対的プロンプトコンテンツ分類を実行し、さまざまなタイプの攻撃トピックに対するさまざまなモデルの感受性を分析します。

要約(オリジナル)

While state-of-the-art language models have achieved impressive results, they remain susceptible to inference-time adversarial attacks, such as adversarial prompts generated by red teams arXiv:2209.07858. One approach proposed to improve the general quality of language model generations is multi-agent debate, where language models self-evaluate through discussion and feedback arXiv:2305.14325. We implement multi-agent debate between current state-of-the-art language models and evaluate models’ susceptibility to red team attacks in both single- and multi-agent settings. We find that multi-agent debate can reduce model toxicity when jailbroken or less capable models are forced to debate with non-jailbroken or more capable models. We also find marginal improvements through the general usage of multi-agent interactions. We further perform adversarial prompt content classification via embedding clustering, and analyze the susceptibility of different models to different types of attack topics.

arxiv情報

著者 Steffi Chern,Zhen Fan,Andy Liu
発行日 2024-01-11 15:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク