要約
大規模言語モデル(Large Language Models: LLMs)の安全なアライメントは、LLMsが有害なコンテンツを出力するように敵対的にトリガーする手動および自動ジェイルブレイク攻撃の両方に対して脆弱である。しかし、LLMをジェイルブレイクするための現在の方法は、有害なプロンプト全体を入れ子にするものであり、悪意のある意図を隠すのに効果的ではない。本論文では、悪意のあるプロンプトを分割されたサブプロンプトに分解することで、その根底にある悪意を効果的に隠蔽できることを発見し、断片化された検出しにくい形式で提示することで、これらの制限に対処する。我々は、脱獄プロンプトのための自動プロンプトの ㊟コンポジションと㊟コンストラクションのフレームワークを紹介する。(DrAttack)を紹介します。DrAttackには3つの重要なコンポーネントがあります:(a)元のプロンプトのサブプロンプトへの「分解」、(b)意味的に似ているが無害な再組み立てデモを用いたコンテキスト内学習による、これらのサブプロンプトの暗黙の「再構築」、(c)LLMを脱獄しながら元の意図を維持するサブプロンプトの同義語を見つけることを目的とした、サブプロンプトの「同義語検索」。複数のオープンソースおよびクローズドソースのLLMを対象とした広範な実証研究により、DrAttackはクエリー数を大幅に削減することで、従来のSOTAプロンプトのみのアタッカーよりも成功率が大幅に向上することが実証されています。特に、GPT-4でわずか15クエリーで78.0%という成功率は、従来の技術を33.1%上回った。このプロジェクトはhttps://github.com/xirui-li/DrAttack。
要約(オリジナル)
The safety alignment of Large Language Models (LLMs) is vulnerable to both manual and automated jailbreak attacks, which adversarially trigger LLMs to output harmful content. However, current methods for jailbreaking LLMs, which nest entire harmful prompts, are not effective at concealing malicious intent and can be easily identified and rejected by well-aligned LLMs. This paper discovers that decomposing a malicious prompt into separated sub-prompts can effectively obscure its underlying malicious intent by presenting it in a fragmented, less detectable form, thereby addressing these limitations. We introduce an automatic prompt \textbf{D}ecomposition and \textbf{R}econstruction framework for jailbreak \textbf{Attack} (DrAttack). DrAttack includes three key components: (a) `Decomposition’ of the original prompt into sub-prompts, (b) `Reconstruction’ of these sub-prompts implicitly by in-context learning with semantically similar but harmless reassembling demo, and (c) a `Synonym Search’ of sub-prompts, aiming to find sub-prompts’ synonyms that maintain the original intent while jailbreaking LLMs. An extensive empirical study across multiple open-source and closed-source LLMs demonstrates that, with a significantly reduced number of queries, DrAttack obtains a substantial gain of success rate over prior SOTA prompt-only attackers. Notably, the success rate of 78.0\% on GPT-4 with merely 15 queries surpassed previous art by 33.1\%. The project is available at https://github.com/xirui-li/DrAttack.
arxiv情報
著者 | Xirui Li,Ruochen Wang,Minhao Cheng,Tianyi Zhou,Cho-Jui Hsieh |
発行日 | 2024-03-01 07:26:50+00:00 |
arxivサイト | arxiv_id(pdf) |