要約
バックドア攻撃は、NLP システムに対する新たな脅威となっています。
汚染されたトレーニング データを提供することで、攻撃者は被害者モデルに「バックドア」を埋め込むことができます。これにより、特定のテキスト パターン (キーワードを含むなど) を満たす入力インスタンスを、攻撃者が選択したターゲット ラベルとして予測できるようになります。
このホワイト ペーパーでは、ステルス (つまり、気づきにくい) かつ効果的な (つまり、攻撃の成功率が高い) バックドア攻撃を設計できることを示します。
BITE は、自然な単語レベルの摂動を介してターゲット ラベル インスタンスに反復的に注入することにより、トレーニング データを汚染してターゲット ラベルと一部の「トリガー ワード」との間に強い相関関係を確立するバックドア攻撃です。
汚染されたトレーニング データは、バックドアを形成するトリガー ワードを含む入力のターゲット ラベルを予測するよう被害者モデルに指示します。
4 つの中規模のテキスト分類データセットでの実験では、BITE がベースラインよりもはるかに効果的でありながら、適切なステルス性を維持していることが示され、信頼できないトレーニング データの使用について警告が発せられました。
さらに、潜在的なトリガー ワードの除去に基づく DeBITE という名前の防御方法を提案します。これは、BITE の防御に関する既存の方法よりも優れており、他のバックドア攻撃の防御によく一般化されます。
要約(オリジナル)
Backdoor attacks have become an emerging threat to NLP systems. By providing poisoned training data, the adversary can embed a “backdoor” into the victim model, which allows input instances satisfying certain textual patterns (e.g., containing a keyword) to be predicted as a target label of the adversary’s choice. In this paper, we demonstrate that it’s possible to design a backdoor attack that is both stealthy (i.e., hard to notice) and effective (i.e., has a high attack success rate). We propose BITE, a backdoor attack that poisons the training data to establish strong correlations between the target label and some “trigger words”, by iteratively injecting them into target-label instances through natural word-level perturbations. The poisoned training data instruct the victim model to predict the target label on inputs containing trigger words, forming the backdoor. Experiments on four medium-sized text classification datasets show that BITE is significantly more effective than baselines while maintaining decent stealthiness, raising alarm on the usage of untrusted training data. We further propose a defense method named DeBITE based on potential trigger word removal, which outperforms existing methods on defending BITE and generalizes well to defending other backdoor attacks.
arxiv情報
著者 | Jun Yan,Vansh Gupta,Xiang Ren |
発行日 | 2023-02-16 13:02:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google