Clean Label Attacks against SLU Systems

要約

ポイズニング バックドア攻撃では、攻撃者がトレーニング データを操作して、推論時に信号にトリガーを挿入することで被害者モデルに特定の動作を誘発します。
トレーニング ラベルを変更しないクリーン ラベル バックドア (CLBD) データ ポイズニング攻撃を、音声言語理解タスクをサポート/実行する最先端の音声認識モデルに適用し、ポイズニングによる攻撃成功率 99.8% を達成しました。
トレーニング データの 10%。
私たちは、毒の信号強度の変化、毒されたサンプルの割合、トリガーの選択が攻撃にどのような影響を与えるかを分析しました。
また、CLBD 攻撃は、プロキシ モデルにとって本質的に困難なトレーニング サンプルに適用された場合に最も成功することもわかりました。
この戦略を使用すると、トレーニング データのわずか 1.5% を汚染するだけで 99.3% の攻撃成功率を達成しました。
最後に、勾配ベースの攻撃に対して以前に開発した 2 つの防御を適用したところ、それらがポイズニングに対して複合的な成功を収めることがわかりました。

要約(オリジナル)

Poisoning backdoor attacks involve an adversary manipulating the training data to induce certain behaviors in the victim model by inserting a trigger in the signal at inference time. We adapted clean label backdoor (CLBD)-data poisoning attacks, which do not modify the training labels, on state-of-the-art speech recognition models that support/perform a Spoken Language Understanding task, achieving 99.8% attack success rate by poisoning 10% of the training data. We analyzed how varying the signal-strength of the poison, percent of samples poisoned, and choice of trigger impact the attack. We also found that CLBD attacks are most successful when applied to training samples that are inherently hard for a proxy model. Using this strategy, we achieved an attack success rate of 99.3% by poisoning a meager 1.5% of the training data. Finally, we applied two previously developed defenses against gradient-based attacks, and found that they attain mixed success against poisoning.

arxiv情報

著者 Henry Li Xinyuan,Sonal Joshi,Thomas Thebaud,Jesus Villalba,Najim Dehak,Sanjeev Khudanpur
発行日 2024-09-13 16:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, eess.AS パーマリンク