Hijacking Large Language Models via Adversarial In-Context Learning

要約

インコンテキスト学習 (ICL) は、前提条件プロンプトのデモンストレーションとしてラベル付きの例を利用することにより、特定のタスクに LLM を活用する強力なパラダイムとして登場しました。
ICL は、その有望なパフォーマンスにもかかわらず、サンプルの選択と配置に不安定性があります。
さらに、巧妙に作られた敵対的攻撃は、ICL の堅牢性に対して顕著な脅威をもたらします。
ただし、既存の攻撃は検出が簡単であるか、外部モデルに依存しているか、ICL に対する特異性が欠けています。
これらの問題に対処するために、この研究では、LLM をハイジャックして標的を絞った応答を生成することを目的とした、ICL に対する新しい転送可能な攻撃を導入しています。
提案されている LLM ハイジャック攻撃は、勾配ベースのプロンプト検索手法を利用して、知覚できない敵対的なサフィックスを学習し、コンテキスト内のデモンストレーションに追加します。
さまざまなタスクとデータセットに関する広範な実験結果は、LLM ハイジャック攻撃の有効性を示しており、その結果、敵対的なトークンに注意がそらされ、その結果、標的を絞った望ましくない出力につながります。

要約(オリジナル)

In-context learning (ICL) has emerged as a powerful paradigm leveraging LLMs for specific tasks by utilizing labeled examples as demonstrations in the precondition prompts. Despite its promising performance, ICL suffers from instability with the choice and arrangement of examples. Additionally, crafted adversarial attacks pose a notable threat to the robustness of ICL. However, existing attacks are either easy to detect, rely on external models, or lack specificity towards ICL. To address these issues, this work introduces a novel transferable attack for ICL, aiming to hijack LLMs to generate the targeted response. The proposed LLM hijacking attack leverages a gradient-based prompt search method to learn and append imperceptible adversarial suffixes to the in-context demonstrations. Extensive experimental results on various tasks and datasets demonstrate the effectiveness of our LLM hijacking attack, resulting in a distracted attention towards adversarial tokens, consequently leading to the targeted unwanted outputs.

arxiv情報

著者 Yao Qiang,Xiangyu Zhou,Dongxiao Zhu
発行日 2023-11-16 15:01:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク