AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs

要約

大規模言語モデル (LLM) がますます普及し、自律システムに統合されるにつれて、その安全性を確保することが不可欠です。
安全性の調整に向けた大きな進歩にもかかわらず、最近の研究 GCG~\citep{zou2023universal} は、離散トークン最適化アルゴリズムを提案し、調整された LLM を正常に脱獄するために損失が最も少ない単一のサフィックスを選択します。
この研究では、まず、脱獄のための GCG 最適化中に損失が最も低いサフィックスのみを選択することの欠点について説明し、中間ステップで失敗した成功したサフィックスを明らかにします。
さらに、これらの成功したサフィックスをトレーニング データとして利用して、AmpleGCG という名前の生成モデルを学習します。このモデルは、有害なクエリが与えられた場合の敵対的なサフィックスの分布を捕捉し、あらゆる有害なクエリに対して数百ものサフィックスを数秒で迅速に生成できるようにします。
AmpleGCG は、2 つの調整された LLM (Llama-2-7B-chat および Vicuna-7B) 上で 100% 近くの攻撃成功率 (ASR) を達成し、2 つの最も強力な攻撃ベースラインを上回りました。
さらに興味深いことに、AmpleGCG は、クローズドソース LLM を含むさまざまなモデルを攻撃するためにシームレスに移行し、最新の GPT-3.5 で 99\% ASR を達成します。
要約すると、私たちの研究は、あらゆる有害なクエリに普遍的で、攻撃的なオープンソース LLM からクローズドソース LLM に移行可能な敵対的サフィックスの生成モデルをトレーニングすることによって、GCG の影響を増幅します。
さらに、1 つの有害なクエリに対してわずか 4 秒で 200 個の敵対的なサフィックスを生成する可能性があるため、防御がより困難になります。

要約(オリジナル)

As large language models (LLMs) become increasingly prevalent and integrated into autonomous systems, ensuring their safety is imperative. Despite significant strides toward safety alignment, recent work GCG~\citep{zou2023universal} proposes a discrete token optimization algorithm and selects the single suffix with the lowest loss to successfully jailbreak aligned LLMs. In this work, we first discuss the drawbacks of solely picking the suffix with the lowest loss during GCG optimization for jailbreaking and uncover the missed successful suffixes during the intermediate steps. Moreover, we utilize those successful suffixes as training data to learn a generative model, named AmpleGCG, which captures the distribution of adversarial suffixes given a harmful query and enables the rapid generation of hundreds of suffixes for any harmful queries in seconds. AmpleGCG achieves near 100\% attack success rate (ASR) on two aligned LLMs (Llama-2-7B-chat and Vicuna-7B), surpassing two strongest attack baselines. More interestingly, AmpleGCG also transfers seamlessly to attack different models, including closed-source LLMs, achieving a 99\% ASR on the latest GPT-3.5. To summarize, our work amplifies the impact of GCG by training a generative model of adversarial suffixes that is universal to any harmful queries and transferable from attacking open-source LLMs to closed-source LLMs. In addition, it can generate 200 adversarial suffixes for one harmful query in only 4 seconds, rendering it more challenging to defend.

arxiv情報

著者 Zeyi Liao,Huan Sun
発行日 2024-04-11 17:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク