要約
最近の研究では、自然言語処理 (NLP) モデルがバックドア攻撃に対して脆弱であることが指摘されています。
バックドアモデルは、クリーンなサンプルでは通常の出力を生成しますが、攻撃者が挿入したトリガーによりテキストでは不適切に実行されます。
ただし、テキスト バックドア攻撃に関するこれまでの研究では、ステルス性についてはほとんど注意が払われていませんでした。
さらに、攻撃方法によっては、文法上の問題を引き起こしたり、元のテキストの意味を変更したりする場合もあります。
したがって、人間や防衛システムによって簡単に検出される可能性があります。
この論文では、テキスト モデルに対する新しいステルス バックドア攻撃手法を提案します。これは \textbf{Punc Attack} と呼ばれます。
句読点の組み合わせをトリガーとして利用し、適切な位置を戦略的に選択して置き換えます。
広範な実験を通じて、提案された方法がさまざまなタスクで複数のモデルを効果的に侵害できることを実証します。
一方、自動評価と人間による検査を行ったところ、提案手法は文法上の問題や文の意味を変えることなく、優れたステルス性を備えていることがわかりました。
要約(オリジナル)
Recent studies have pointed out that natural language processing (NLP) models are vulnerable to backdoor attacks. A backdoored model produces normal outputs on the clean samples while performing improperly on the texts with triggers that the adversary injects. However, previous studies on textual backdoor attack pay little attention to stealthiness. Moreover, some attack methods even cause grammatical issues or change the semantic meaning of the original texts. Therefore, they can easily be detected by humans or defense systems. In this paper, we propose a novel stealthy backdoor attack method against textual models, which is called \textbf{PuncAttack}. It leverages combinations of punctuation marks as the trigger and chooses proper locations strategically to replace them. Through extensive experiments, we demonstrate that the proposed method can effectively compromise multiple models in various tasks. Meanwhile, we conduct automatic evaluation and human inspection, which indicate the proposed method possesses good performance of stealthiness without bringing grammatical issues and altering the meaning of sentences.
arxiv情報
著者 | Xuan Sheng,Zhicheng Li,Zhaoyang Han,Xiangmao Chang,Piji Li |
発行日 | 2023-12-26 03:26:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google