Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks

要約

大規模言語モデル (LLM) は、攻撃クエリを微妙に変更して有害な情報を抽出することを目的とした脱獄攻撃の影響を受けやすくなっています。
防御メカニズムが進化するにつれて、ジェイルブレイク攻撃にとって有害な情報を直接取得することはますます困難になっています。
この研究では、有害な情報を引き出すための間接的なコンテキストの人間の実践に触発され、コンテキスト インタラクション攻撃と呼ばれる新しい攻撃形式に焦点を当てています。
このアイデアは、LLM の生成プロセスの自己回帰的な性質に基づいています。
私たちは、以前のコンテキスト、つまり攻撃クエリの前にある情報が、強力な脱獄攻撃を可能にする上で極めて重要な役割を果たしていると主張します。
具体的には、事前の質問と回答のペアを活用して LLM と対話するアプローチを提案します。
そうすることで、「望ましい」有害な情報を明らかにする方向にモデルの応答を導きます。
私たちは 4 つの異なる LLM で実験を実施し、この攻撃の有効性を実証しました。この攻撃はブラックボックスであり、LLM 間で転送することもできます。
これにより、LLM のコンテキスト ベクトルのさらなる発展と理解につながる可能性があると私たちは信じています。

要約(オリジナル)

Large Language Models (LLMs) are susceptible to Jailbreaking attacks, which aim to extract harmful information by subtly modifying the attack query. As defense mechanisms evolve, directly obtaining harmful information becomes increasingly challenging for Jailbreaking attacks. In this work, inspired by human practices of indirect context to elicit harmful information, we focus on a new attack form called Contextual Interaction Attack. The idea relies on the autoregressive nature of the generation process in LLMs. We contend that the prior context–the information preceding the attack query–plays a pivotal role in enabling potent Jailbreaking attacks. Specifically, we propose an approach that leverages preliminary question-answer pairs to interact with the LLM. By doing so, we guide the responses of the model toward revealing the ‘desired’ harmful information. We conduct experiments on four different LLMs and demonstrate the efficacy of this attack, which is black-box and can also transfer across LLMs. We believe this can lead to further developments and understanding of the context vector in LLMs.

arxiv情報

著者 Yixin Cheng,Markos Georgopoulos,Volkan Cevher,Grigorios G. Chrysos
発行日 2024-02-14 13:45:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク