OrderBkd: Textual backdoor attack through repositioning

要約

サードパーティのデータセットと事前トレーニングされた機械学習モデルの使用は、隠れたバックドア攻撃の可能性があるため、NLP システムに脅威をもたらします。
既存の攻撃には、トークンの挿入や文の言い換えなどのデータ サンプルの汚染が含まれており、これらは元のテキストのセマンティクスを変更するか、検出可能です。
前作との主な違いは、文中の 2 つの単語の位置変更をトリガーとして使用していることです。
これらのトークンを選択するための特定の品詞 (POS) ベースのルールを設計および適用することにより、SST-2 および AG 分類データセットに対する高い攻撃成功率を維持しながら、複雑さとクリーン サンプルとの意味的類似性の点で既存の攻撃を上回ります。
さらにONIONの防御法に対しても攻撃の堅牢さを見せます。
この論文のすべてのコードとデータは、https://github.com/alekseevskaia/OrderBkd で入手できます。

要約(オリジナル)

The use of third-party datasets and pre-trained machine learning models poses a threat to NLP systems due to possibility of hidden backdoor attacks. Existing attacks involve poisoning the data samples such as insertion of tokens or sentence paraphrasing, which either alter the semantics of the original texts or can be detected. Our main difference from the previous work is that we use the reposition of a two words in a sentence as a trigger. By designing and applying specific part-of-speech (POS) based rules for selecting these tokens, we maintain high attack success rate on SST-2 and AG classification datasets while outperforming existing attacks in terms of perplexity and semantic similarity to the clean samples. In addition, we show the robustness of our attack to the ONION defense method. All the code and data for the paper can be obtained at https://github.com/alekseevskaia/OrderBkd.

arxiv情報

著者 Irina Alekseevskaia,Konstantin Arkhipenko
発行日 2024-02-12 14:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク