Clean Label Attacks against SLU Systems

要約

ポイズニングバックドア攻撃では、攻撃者がトレーニングデータを操作して、推論時に信号にトリガーを挿入することで被害者モデルに特定の動作を誘発します。
トレーニングラベルを変更しないクリーンラベルバックドア (CLBD) データポイズニング攻撃を、音声言語理解タスクをサポート/実行する最先端の音声認識モデルに適用し、ポイズニングによる攻撃成功率 99.8% を達成しました。
トレーニングデータの 10%。
私たちは、毒の信号強度の変化、毒されたサンプルの割合、トリガーの選択が攻撃にどのような影響を与えるかを分析しました。
また、CLBD 攻撃は、プロキシモデルにとって本質的に困難なトレーニングサンプルに適用された場合に最も成功することもわかりました。
この戦略を使用すると、トレーニングデータのわずか 1.5% を汚染するだけで 99.3% の攻撃成功率を達成しました。
最後に、勾配ベースの攻撃に対して以前に開発した 2 つの防御を適用したところ、それらがポイズニングに対して複合的な成功を収めることがわかりました。

要約(オリジナル)

Poisoning backdoor attacks involve an adversary manipulating the training data to induce certain behaviors in the victim model by inserting a trigger in the signal at inference time. We adapted clean label backdoor (CLBD)-data poisoning attacks, which do not modify the training labels, on state-of-the-art speech recognition models that support/perform a Spoken Language Understanding task, achieving 99.8% attack success rate by poisoning 10% of the training data. We analyzed how varying the signal-strength of the poison, percent of samples poisoned, and choice of trigger impact the attack. We also found that CLBD attacks are most successful when applied to training samples that are inherently hard for a proxy model. Using this strategy, we achieved an attack success rate of 99.3% by poisoning a meager 1.5% of the training data. Finally, we applied two previously developed defenses against gradient-based attacks, and found that they attain mixed success against poisoning.

arxiv情報

著者	Henry Li Xinyuan,Sonal Joshi,Thomas Thebaud,Jesus Villalba,Najim Dehak,Sanjeev Khudanpur
発行日	2024-09-13 16:58:06+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Clean Label Attacks against SLU Systems

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー