Universal and Transferable Adversarial Attacks on Aligned Language Models

要約

「すぐに使える」大規模な言語モデルは大量の不快なコンテンツを生成する可能性があるため、最近の研究では、望ましくない生成を防ぐためにこれらのモデルを調整することに重点が置かれています。
これらの対策を回避すること、つまり LLM に対するいわゆる「脱獄」にはある程度成功していますが、これらの攻撃は人間の多大な創意工夫を必要とし、実際には脆弱です。
この論文では、調整された言語モデルに不快な動作を生成させる、シンプルかつ効果的な攻撃手法を提案します。
具体的には、私たちのアプローチは、LLM が不快なコンテンツを生成するための幅広いクエリに付加された場合に、モデルが (回答を拒否するのではなく) 肯定的な応答を生成する確率を最大化することを目的としたサフィックスを見つけます。
ただし、手動エンジニアリングに依存する代わりに、私たちのアプローチは、貪欲な検索手法と勾配ベースの検索手法を組み合わせて、これらの敵対的なサフィックスを自動的に生成し、過去の自動プロンプト生成手法よりも改善されています。
驚くべきことに、私たちのアプローチによって生成された敵対的プロンプトは、ブラックボックスで公開されている LLM を含め、非常に移転可能であることがわかりました。
具体的には、複数のプロンプト (つまり、さまざまな種類の不快なコンテンツを要求するクエリ) および複数のモデル (この場合は Vicuna-7B と 13B) で敵対的攻撃のサフィックスをトレーニングします。
これを行うと、結果として生じる攻撃サフィックスにより、ChatGPT、Bard、Claude へのパブリック インターフェイスや、LLaMA-2-Chat、Pythia、Falcon などのオープン ソース LLM に不快なコンテンツが誘導される可能性があります。
全体として、この研究は、調整された言語モデルに対する敵対的攻撃における最先端技術を大幅に進歩させ、そのようなシステムが不快な情報を生成するのをどのように防ぐことができるかについて重要な疑問を提起します。
コードは github.com/llm-attachs/llm-attachs で入手できます。

要約(オリジナル)

Because ‘out-of-the-box’ large language models are capable of generating a great deal of objectionable content, recent work has focused on aligning these models in an attempt to prevent undesirable generation. While there has been some success at circumventing these measures — so-called ‘jailbreaks’ against LLMs — these attacks have required significant human ingenuity and are brittle in practice. In this paper, we propose a simple and effective attack method that causes aligned language models to generate objectionable behaviors. Specifically, our approach finds a suffix that, when attached to a wide range of queries for an LLM to produce objectionable content, aims to maximize the probability that the model produces an affirmative response (rather than refusing to answer). However, instead of relying on manual engineering, our approach automatically produces these adversarial suffixes by a combination of greedy and gradient-based search techniques, and also improves over past automatic prompt generation methods. Surprisingly, we find that the adversarial prompts generated by our approach are quite transferable, including to black-box, publicly released LLMs. Specifically, we train an adversarial attack suffix on multiple prompts (i.e., queries asking for many different types of objectionable content), as well as multiple models (in our case, Vicuna-7B and 13B). When doing so, the resulting attack suffix is able to induce objectionable content in the public interfaces to ChatGPT, Bard, and Claude, as well as open source LLMs such as LLaMA-2-Chat, Pythia, Falcon, and others. In total, this work significantly advances the state-of-the-art in adversarial attacks against aligned language models, raising important questions about how such systems can be prevented from producing objectionable information. Code is available at github.com/llm-attacks/llm-attacks.

arxiv情報

著者 Andy Zou,Zifan Wang,J. Zico Kolter,Matt Fredrikson
発行日 2023-07-27 17:49:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク