要約
事前トレーニングと微調整の間のギャップを埋めるパラダイムであるインコンテキスト学習は、いくつかの NLP タスク、特にショット数が少ない設定で高い効果を実証しています。
インコンテキスト学習は広く適用されているにもかかわらず、悪意のある攻撃に対して脆弱です。
この研究では、このパラダイムに関するセキュリティ上の懸念を提起します。
私たちの研究は、攻撃者がモデルを微調整することなく、デモンストレーション コンテキストを汚染することで大規模な言語モデルの動作を操作できることを示しています。
具体的には、コンテキスト内学習に基づいた大規模な言語モデルをターゲットとする、ICL Attack という名前の新しいバックドア攻撃手法を設計します。
私たちの手法には、ポイズニング デモンストレーション サンプルとポイズニング デモンストレーション プロンプトの 2 種類の攻撃が含まれており、事前に定義された意図に沿ってモデルを動作させることができます。
ICL Attack では、バックドアを埋め込むために追加の微調整を必要としないため、モデルの汎用性が維持されます。
さらに、毒されたサンプルには正しくラベルが付けられており、攻撃方法の自然なステルス性が強化されています。
サイズが 1.3B から 180B のパラメーターにわたる、いくつかの言語モデルにわたる広範な実験結果は、OPT モデルの 3 つのデータセット全体で 95.0% という高い平均攻撃成功率によって実証される、攻撃手法の有効性を実証しています。
要約(オリジナル)
In-context learning, a paradigm bridging the gap between pre-training and fine-tuning, has demonstrated high efficacy in several NLP tasks, especially in few-shot settings. Despite being widely applied, in-context learning is vulnerable to malicious attacks. In this work, we raise security concerns regarding this paradigm. Our studies demonstrate that an attacker can manipulate the behavior of large language models by poisoning the demonstration context, without the need for fine-tuning the model. Specifically, we design a new backdoor attack method, named ICLAttack, to target large language models based on in-context learning. Our method encompasses two types of attacks: poisoning demonstration examples and poisoning demonstration prompts, which can make models behave in alignment with predefined intentions. ICLAttack does not require additional fine-tuning to implant a backdoor, thus preserving the model’s generality. Furthermore, the poisoned examples are correctly labeled, enhancing the natural stealth of our attack method. Extensive experimental results across several language models, ranging in size from 1.3B to 180B parameters, demonstrate the effectiveness of our attack method, exemplified by a high average attack success rate of 95.0% across the three datasets on OPT models.
arxiv情報
著者 | Shuai Zhao,Meihuizi Jia,Luu Anh Tuan,Fengjun Pan,Jinming Wen |
発行日 | 2024-10-01 12:38:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google