Sleeper Agent: Scalable Hidden Trigger Backdoors for Neural Networks Trained from Scratch

要約

機械学習用のデータのキュレーションがますます自動化されるにつれて、データセットの改ざんの脅威が高まっています。
バックドア攻撃者は、トレーニング データを改ざんして、そのデータでトレーニングされたモデルに脆弱性を埋め込みます。
この脆弱性は、モデルの入力に「トリガー」を配置することにより、推論時にアクティブ化されます。
典型的なバックドア攻撃では、トレーニング データに直接トリガーが挿入されますが、このような攻撃の存在は調査時に確認できる場合があります。
対照的に、Hidden Trigger Backdoor Attack は、トレーニング データにトリガーをまったく配置せずにポイズニングを実現します。
ただし、この隠しトリガー攻撃は、ゼロからトレーニングされたニューラル ネットワークを汚染するのには効果がありません。
作成プロセス中に勾配マッチング、データ選択、およびターゲット モデルの再トレーニングを採用する、新しい隠しトリガー攻撃である Sleeper Agent を開発します。
Sleeper Agent は、ゼロからトレーニングされたニューラル ネットワークに対して有効な最初の隠しトリガー バックドア攻撃です。
ImageNet とブラックボックス設定でその有効性を実証します。
実装コードは https://github.com/hsouri/Sleeper-Agent にあります。

要約(オリジナル)

As the curation of data for machine learning becomes increasingly automated, dataset tampering is a mounting threat. Backdoor attackers tamper with training data to embed a vulnerability in models that are trained on that data. This vulnerability is then activated at inference time by placing a ‘trigger’ into the model’s input. Typical backdoor attacks insert the trigger directly into the training data, although the presence of such an attack may be visible upon inspection. In contrast, the Hidden Trigger Backdoor Attack achieves poisoning without placing a trigger into the training data at all. However, this hidden trigger attack is ineffective at poisoning neural networks trained from scratch. We develop a new hidden trigger attack, Sleeper Agent, which employs gradient matching, data selection, and target model re-training during the crafting process. Sleeper Agent is the first hidden trigger backdoor attack to be effective against neural networks trained from scratch. We demonstrate its effectiveness on ImageNet and in black-box settings. Our implementation code can be found at https://github.com/hsouri/Sleeper-Agent.

arxiv情報

著者 Hossein Souri,Liam Fowl,Rama Chellappa,Micah Goldblum,Tom Goldstein
発行日 2022-10-13 16:01:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク