AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts

要約

大規模言語モデル (LLM) は通常は調整されていますが、自然言語で慎重に作成されたプロンプトや、興味深いことに意味不明な敵対的なサフィックスによる脱獄に対して脆弱なままです。
しかし、意味不明なトークンは、整列 LLM の攻撃には成功しているにもかかわらず、比較的注目されていません。
最近の研究、AmpleGCG~\citep{liao2024amplegcg} は、生成モデルがあらゆる有害なクエリに対して多数のカスタマイズ可能な意味不明な敵対的サフィックスを迅速に生成し、配布外 (OOD) 言語空間における一連のアラインメント ギャップを明らかにできることを示しています。
この領域にさらに注目してもらうために、少ない試行でより優れたパフォーマンスを実現する拡張バージョンである AmpleGCG-Plus を紹介します。
一連の探索的な実験を通じて、意味不明な接尾辞の学習を改善するためのいくつかのトレーニング戦略を特定しました。
厳格な評価設定の下で検証された私たちの結果は、オープンウェイトモデルとクローズドソースモデルの両方で AmpleGCG よりも優れたパフォーマンスを示し、Llama に対するホワイトボックス設定で最大 17\% の攻撃成功率 (ASR) の向上を達成したことを示しています。
2-7B チャット、および GPT-4 に対するブラックボックス設定の ASR が 3 倍以上。
特に、AmpleGCG-Plus は、GPT-4 と同様の速度で新しい GPT-4o シリーズ モデルをジェイルブレイクし、最近提案されたサーキット ブレーカー防御に対する脆弱性を明らかにします。
私たちは、収集したトレーニング データセットとともに AmpleGCG-Plus を一般公開します。

要約(オリジナル)

Although large language models (LLMs) are typically aligned, they remain vulnerable to jailbreaking through either carefully crafted prompts in natural language or, interestingly, gibberish adversarial suffixes. However, gibberish tokens have received relatively less attention despite their success in attacking aligned LLMs. Recent work, AmpleGCG~\citep{liao2024amplegcg}, demonstrates that a generative model can quickly produce numerous customizable gibberish adversarial suffixes for any harmful query, exposing a range of alignment gaps in out-of-distribution (OOD) language spaces. To bring more attention to this area, we introduce AmpleGCG-Plus, an enhanced version that achieves better performance in fewer attempts. Through a series of exploratory experiments, we identify several training strategies to improve the learning of gibberish suffixes. Our results, verified under a strict evaluation setting, show that it outperforms AmpleGCG on both open-weight and closed-source models, achieving increases in attack success rate (ASR) of up to 17\% in the white-box setting against Llama-2-7B-chat, and more than tripling ASR in the black-box setting against GPT-4. Notably, AmpleGCG-Plus jailbreaks the newer GPT-4o series of models at similar rates to GPT-4, and, uncovers vulnerabilities against the recently proposed circuit breakers defense. We publicly release AmpleGCG-Plus along with our collected training datasets.

arxiv情報

著者 Vishal Kumar,Zeyi Liao,Jaylen Jones,Huan Sun
発行日 2024-10-29 15:40:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク