Universal Vulnerabilities in Large Language Models: In-context Learning Backdoor Attacks

要約

事前トレーニングと微調整の間のギャップを埋めるパラダイムであるインコンテキスト学習は、いくつかの NLP タスク、特に数ショット設定で高い効果を実証しています。
従来の微調整方法とは異なり、インコンテキスト学習では、パラメーターを更新せずに、事前トレーニングされたモデルを目に見えないタスクに適応させます。
インコンテキスト学習は広く適用されているにもかかわらず、悪意のある攻撃に対して脆弱です。
この研究では、このパラダイムに関するセキュリティ上の懸念を提起します。
私たちの研究は、攻撃者がモデルを微調整することなく、デモンストレーション コンテキストを汚染することで大規模な言語モデルの動作を操作できることを示しています。
具体的には、コンテキスト内学習に基づいた大規模な言語モデルをターゲットとする、ICLアタックという名前の新しいバックドア攻撃手法を設計しました。
私たちの手法には、ポイズニング デモンストレーション サンプルとポイズニング プロンプトの 2 種類の攻撃が含まれており、事前に定義された意図に従ってモデルを動作させることができます。
ICL Attack では、バックドアを埋め込むために追加の微調整を必要としないため、モデルの汎用性が維持されます。
さらに、毒されたサンプルには正しくラベルが付けられており、攻撃方法の自然なステルス性が強化されています。
サイズが 1.3B から 40B のパラメーターにわたる、いくつかの言語モデルにわたる広範な実験結果は、OPT モデルの 3 つのデータセット全体で 95.0% という高い平均攻撃成功率によって実証される、攻撃方法の有効性を実証しています。
私たちの調査結果は言語モデルの脆弱性を浮き彫りにしており、この研究がコンテキスト内学習に関連する潜在的なセキュリティ脅威に対する認識を高めることを願っています。

要約(オリジナル)

In-context learning, a paradigm bridging the gap between pre-training and fine-tuning, has demonstrated high efficacy in several NLP tasks, especially in few-shot settings. Unlike traditional fine-tuning methods, in-context learning adapts pre-trained models to unseen tasks without updating any parameters. Despite being widely applied, in-context learning is vulnerable to malicious attacks. In this work, we raise security concerns regarding this paradigm. Our studies demonstrate that an attacker can manipulate the behavior of large language models by poisoning the demonstration context, without the need for fine-tuning the model. Specifically, we have designed a new backdoor attack method, named ICLAttack, to target large language models based on in-context learning. Our method encompasses two types of attacks: poisoning demonstration examples and poisoning prompts, which can make models behave in accordance with predefined intentions. ICLAttack does not require additional fine-tuning to implant a backdoor, thus preserving the model’s generality. Furthermore, the poisoned examples are correctly labeled, enhancing the natural stealth of our attack method. Extensive experimental results across several language models, ranging in size from 1.3B to 40B parameters, demonstrate the effectiveness of our attack method, exemplified by a high average attack success rate of 95.0% across the three datasets on OPT models. Our findings highlight the vulnerabilities of language models, and we hope this work will raise awareness of the possible security threats associated with in-context learning.

arxiv情報

著者 Shuai Zhao,Meihuizi Jia,Luu Anh Tuan,Jinming Wen
発行日 2024-01-11 14:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク