要約
バックドア攻撃は自然言語処理(NLP)モデルに対する顕著な脅威として浮上しており、入力に特定のトリガーが存在することで、ポイズンモデルがこれらの入力を事前に設定されたターゲットクラスに誤分類する可能性がある。現在の検出メカニズムは、スタイルベースの攻撃など、より隠密なバックドア戦略に対処できないため、限界がある。本研究では、入力の意味論的な意味に基づいたモデル予測の解釈可能性に依存する、革新的なテスト時間毒サンプル検出フレームワークを提案する。我々は、毒入りサンプルはステルス性を維持したいため、トリガー(例えば、頻度の低い単語)は毒入りサンプルの根本的な意味合いを根本的に変えることはないと主張する。この観察に基づき、我々は、言い換えられたクリーンなサンプルに対するモデルの予測は安定したままである一方、毒入りサンプルに対する予測は、言い換えプロセス中にトリガーに適用される変異により、真のラベルに戻るはずであるという仮説を立てる。我々は最新の大規模言語モデルであるChatGPTをパラフレーザとして採用し、トリガ除去タスクをプロンプトエンジニアリング問題として定式化する。我々は、ソフトウェアの脆弱性を発見するために一般的に使用される技術であるファジングを採用し、入力のセマンティクスを維持しながら効果的にトリガーを除去できる最適な言い換えプロンプトを発見する。微妙なスタイルのバックドアを含む4種類のバックドア攻撃と4つの異なるデータセットに対する実験により、我々のアプローチがSTRIP、RAP、ONIONを含むベースライン手法を精度と再現性において上回ることを実証する。
要約(オリジナル)
Backdoor attacks have emerged as a prominent threat to natural language processing (NLP) models, where the presence of specific triggers in the input can lead poisoned models to misclassify these inputs to predetermined target classes. Current detection mechanisms are limited by their inability to address more covert backdoor strategies, such as style-based attacks. In this work, we propose an innovative test-time poisoned sample detection framework that hinges on the interpretability of model predictions, grounded in the semantic meaning of inputs. We contend that triggers (e.g., infrequent words) are not supposed to fundamentally alter the underlying semantic meanings of poisoned samples as they want to stay stealthy. Based on this observation, we hypothesize that while the model’s predictions for paraphrased clean samples should remain stable, predictions for poisoned samples should revert to their true labels upon the mutations applied to triggers during the paraphrasing process. We employ ChatGPT, a state-of-the-art large language model, as our paraphraser and formulate the trigger-removal task as a prompt engineering problem. We adopt fuzzing, a technique commonly used for unearthing software vulnerabilities, to discover optimal paraphrase prompts that can effectively eliminate triggers while concurrently maintaining input semantics. Experiments on 4 types of backdoor attacks, including the subtle style backdoors, and 4 distinct datasets demonstrate that our approach surpasses baseline methods, including STRIP, RAP, and ONION, in precision and recall.
arxiv情報
著者 | Lu Yan,Zhuo Zhang,Guanhong Tao,Kaiyuan Zhang,Xuan Chen,Guangyu Shen,Xiangyu Zhang |
発行日 | 2023-08-04 03:48:28+00:00 |
arxivサイト | arxiv_id(pdf) |