TARGET: Template-Transferable Backdoor Attack Against Prompt-based NLP Models via GPT4

要約

プロンプトベースの学習は、数回のショットのシナリオなど、多くの低リソース NLP タスクに広く適用されています。
ただし、このパラダイムはバックドア攻撃に対して脆弱であることがわかっています。
既存の攻撃手法のほとんどは、事前トレーニング段階で手動で定義したテンプレートをトリガーとして挿入して被害者モデルをトレーニングし、同じトリガーを下流のタスクで利用して推論を実行することに焦点を当てており、テンプレートの転送可能性とステルス性が無視される傾向があります。
この研究では、データに依存しない攻撃手法である TARGET (Template-trAnsfeRable backdoor Attack aGainst Prompt-baseEd NLP models via GPT4) という新しいアプローチを提案します。
具体的には、まず GPT4 を利用して手動テンプレートを再定式化し、トーンの強いテンプレートと通常のテンプレートを生成します。前者は、トレーニング前のフェーズでバックドア トリガーとしてモデルに挿入されます。
次に、下流のタスクで上記のテンプレートを直接使用するだけでなく、GPT4 を使用して上記のテンプレートと同様のトーンのテンプレートを生成し、転送可能な攻撃を実行します。
最後に、5 つの NLP データセットと 3 つの BERT シリーズ モデルで広範な実験を実施しました。その実験結果により、TARGET 手法は、直接攻撃に対する 2 つの外部ベースライン手法と比較して攻撃パフォーマンスとステルス性が優れており、さらに、十分な攻撃能力を達成していることが証明されました。
見たことのないトーンに似たテンプレート。

要約(オリジナル)

Prompt-based learning has been widely applied in many low-resource NLP tasks such as few-shot scenarios. However, this paradigm has been shown to be vulnerable to backdoor attacks. Most of the existing attack methods focus on inserting manually predefined templates as triggers in the pre-training phase to train the victim model and utilize the same triggers in the downstream task to perform inference, which tends to ignore the transferability and stealthiness of the templates. In this work, we propose a novel approach of TARGET (Template-trAnsfeRable backdoor attack aGainst prompt-basEd NLP models via GPT4), which is a data-independent attack method. Specifically, we first utilize GPT4 to reformulate manual templates to generate tone-strong and normal templates, and the former are injected into the model as a backdoor trigger in the pre-training phase. Then, we not only directly employ the above templates in the downstream task, but also use GPT4 to generate templates with similar tone to the above templates to carry out transferable attacks. Finally we have conducted extensive experiments on five NLP datasets and three BERT series models, with experimental results justifying that our TARGET method has better attack performance and stealthiness compared to the two-external baseline methods on direct attacks, and in addition achieves satisfactory attack capability in the unseen tone-similar templates.

arxiv情報

著者 Zihao Tan,Qingliang Chen,Yongjian Huang,Chen Liang
発行日 2023-11-29 08:12:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク