Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models

要約

言語言語モデル (LLM) は、悪意のあるユーザーによる誤用の可能性があるため、安全性の懸念に直面しています。
最近のレッドチームの取り組みにより、勾配ベースの検索アルゴリズム Greedy Coowned Gradient (GCG) を使用して LLM をジェイルブレイクできる敵対的なサフィックスが特定されました。
しかし、GCG は計算効率の悪さに悩まされており、モデルやデータ間のサフィックスの転送可能性とスケーラビリティに関するさらなる調査が制限されています。
この研究では、検索効率とサフィックス転送可能性の間の関係を橋渡しします。
我々は、検索プロセスを動作に依存しない事前検索と動作に関連した事後検索に分離する 2 段階の転移学習フレームワーク DeGCG を提案します。
具体的には、検索プロセスを容易にするために、事前検索で最初のターゲット トークンを直接最適化します。
私たちは、クロスモデル、クロスデータ、自己転送のシナリオにアプローチを適用します。
さらに、自己転送性を繰り返し利用して検索プロセスを高速化する、アプローチのインターリーブ型 i-DeGCG を導入します。
HarmBench の実験では、さまざまなモデルやドメインにわたるアプローチの効率性が実証されています。
特に、当社の i-DeGCG は、有効セットとテスト セットでそれぞれ $43.9$ ($+22.2$) と $39.0$ ($+19.5$) の ASR を備え、Llama2-chat-7b のベースラインを上回っています。
クロスモデル転送に関するさらなる分析により、効率的な検索のためにサフィックス転送可能性を活用する上で、最初のターゲット トークンの最適化が極めて重要な役割を果たしていることが示されています。

要約(オリジナル)

Language Language Models (LLMs) face safety concerns due to potential misuse by malicious users. Recent red-teaming efforts have identified adversarial suffixes capable of jailbreaking LLMs using the gradient-based search algorithm Greedy Coordinate Gradient (GCG). However, GCG struggles with computational inefficiency, limiting further investigations regarding suffix transferability and scalability across models and data. In this work, we bridge the connection between search efficiency and suffix transferability. We propose a two-stage transfer learning framework, DeGCG, which decouples the search process into behavior-agnostic pre-searching and behavior-relevant post-searching. Specifically, we employ direct first target token optimization in pre-searching to facilitate the search process. We apply our approach to cross-model, cross-data, and self-transfer scenarios. Furthermore, we introduce an interleaved variant of our approach, i-DeGCG, which iteratively leverages self-transferability to accelerate the search process. Experiments on HarmBench demonstrate the efficiency of our approach across various models and domains. Notably, our i-DeGCG outperforms the baseline on Llama2-chat-7b with ASRs of $43.9$ ($+22.2$) and $39.0$ ($+19.5$) on valid and test sets, respectively. Further analysis on cross-model transfer indicates the pivotal role of first target token optimization in leveraging suffix transferability for efficient searching.

arxiv情報

著者 Hongfu Liu,Yuxi Xie,Ye Wang,Michael Shieh
発行日 2024-08-27 08:38:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク