Defending Jailbreak Prompts via In-Context Adversarial Game

要約

大規模言語モデル (LLM) は、さまざまなアプリケーションにわたって優れた機能を実証します。
しかし、セキュリティ、特に脱獄攻撃に対する脆弱性に関する懸念は依然として残っています。
ディープラーニングの敵対的トレーニングと LLM エージェント学習プロセスからインスピレーションを得て、微調整を必要とせずにジェイルブレイクから防御するための In-Context Adversarial Game (ICAG) を紹介します。
ICAG は、エージェントの学習を活用して敵対ゲームを実施し、脱獄を防ぐための知識を動的に拡張することを目的としています。
静的データセットに依存する従来の方法とは異なり、ICAG は反復プロセスを採用して、防御エージェントと攻撃エージェントの両方を強化します。
この継続的な改善プロセスにより、新たに生成された脱獄プロンプトに対する防御が強化されます。
私たちの実証研究では、ICAG の有効性が確認されており、ICAG によって保護された LLM は、さまざまな攻撃シナリオにわたってジェイルブレイクの成功率が大幅に低下しています。
さらに、ICAG は他の LLM への顕著な移行性を示しており、多用途の防御メカニズムとしての可能性を示しています。

要約(オリジナル)

Large Language Models (LLMs) demonstrate remarkable capabilities across diverse applications. However, concerns regarding their security, particularly the vulnerability to jailbreak attacks, persist. Drawing inspiration from adversarial training in deep learning and LLM agent learning processes, we introduce the In-Context Adversarial Game (ICAG) for defending against jailbreaks without the need for fine-tuning. ICAG leverages agent learning to conduct an adversarial game, aiming to dynamically extend knowledge to defend against jailbreaks. Unlike traditional methods that rely on static datasets, ICAG employs an iterative process to enhance both the defense and attack agents. This continuous improvement process strengthens defenses against newly generated jailbreak prompts. Our empirical studies affirm ICAG’s efficacy, where LLMs safeguarded by ICAG exhibit significantly reduced jailbreak success rates across various attack scenarios. Moreover, ICAG demonstrates remarkable transferability to other LLMs, indicating its potential as a versatile defense mechanism.

arxiv情報

著者 Yujun Zhou,Yufei Han,Haomin Zhuang,Taicheng Guo,Kehan Guo,Zhenwen Liang,Hongyan Bao,Xiangliang Zhang
発行日 2024-02-20 17:04:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク