要約
大規模言語モデル (LLM) の人気が大幅に高まり、複数のアプリケーションにわたって採用されることが増えています。
これらの LLM は、責任ある AI への危害の一因となることを回避する手段として、違法または非倫理的な話題に関与することに抵抗するよう強く連携しています。
しかし、ジェイルブレイクとして知られる最近の一連の攻撃は、この連携を克服しようとしています。
直観的に言えば、ジェイルブレイク攻撃は、モデルが実行できることと、モデルが実行したいこととの間のギャップを狭めることを目的としています。
このペーパーでは、Crescendo と呼ばれる新しい脱獄攻撃を紹介します。
既存の脱獄方法とは異なり、Crescendo は、一見無害な方法でモデルと対話する単純なマルチターン脱獄です。
これは、当面のタスクに関する一般的なプロンプトまたは質問から始まり、モデルの応答を参照することで対話を徐々にエスカレートさせ、徐々に脱獄の成功に導きます。
私たちは、ChatGPT、Gemini Pro、Gemini-Ultra、LlaMA-2 70b および LlaMA-3 70b Chat、Anthropic Chat などのさまざまな公共システムで Crescendo を評価します。
私たちの結果は、Crescendo の強力な有効性を示しており、評価されたすべてのモデルとタスクにわたって高い攻撃成功率を達成しています。
さらに、Crescendomation を紹介します。これは Crescendo 攻撃を自動化し、評価を通じて最先端のモデルに対するその有効性を実証します。
Crescendomation は、AdvBench サブセット データセットで他の最先端のジェイルブレイク技術を上回り、GPT-4 では 29 ~ 61%、Gemini-Pro では 49 ~ 71% 高いパフォーマンスを達成します。
最後に、マルチモーダル モデルをジェイルブレイクする Crescendo の機能も示します。
要約(オリジナル)
Large Language Models (LLMs) have risen significantly in popularity and are increasingly being adopted across multiple applications. These LLMs are heavily aligned to resist engaging in illegal or unethical topics as a means to avoid contributing to responsible AI harms. However, a recent line of attacks, known as jailbreaks, seek to overcome this alignment. Intuitively, jailbreak attacks aim to narrow the gap between what the model can do and what it is willing to do. In this paper, we introduce a novel jailbreak attack called Crescendo. Unlike existing jailbreak methods, Crescendo is a simple multi-turn jailbreak that interacts with the model in a seemingly benign manner. It begins with a general prompt or question about the task at hand and then gradually escalates the dialogue by referencing the model’s replies progressively leading to a successful jailbreak. We evaluate Crescendo on various public systems, including ChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b and LlaMA-3 70b Chat, and Anthropic Chat. Our results demonstrate the strong efficacy of Crescendo, with it achieving high attack success rates across all evaluated models and tasks. Furthermore, we present Crescendomation, a tool that automates the Crescendo attack and demonstrate its efficacy against state-of-the-art models through our evaluations. Crescendomation surpasses other state-of-the-art jailbreaking techniques on the AdvBench subset dataset, achieving 29-61% higher performance on GPT-4 and 49-71% on Gemini-Pro. Finally, we also demonstrate Crescendo’s ability to jailbreak multimodal models.
arxiv情報
著者 | Mark Russinovich,Ahmed Salem,Ronen Eldan |
発行日 | 2024-09-24 13:51:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google