Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder

要約

ディープ ニューラル ネットワークは、バックドア攻撃に対して脆弱です。バックドア攻撃では、攻撃者が特別なトリガーで画像をオーバーレイすることでモデルの動作を悪意を持って操作します。
既存のバックドア防御方法では、多くの場合、いくつかの検証データとモデル パラメーターにアクセスする必要がありますが、これは、モデルがクラウド サービスとして提供される場合など、多くの実世界のアプリケーションでは実用的ではありません。
このペーパーでは、特にブラックボックス モデルのテスト時のブラインド バックドア防御の実際的なタスクについて説明します。
すべてのテスト画像の真のラベルは、画像の良性に関係なく、疑わしいモデルからその場で回復する必要があります。
私たちは、セマンティックな内容をそのまま維持しながら、考えられるトリガーを無力化するテスト時の画像精製方法に焦点を当てています。
トリガーのパターンとサイズが多様であるため、画像空間でのヒューリスティック トリガー検索は拡張不可能になる可能性があります。
我々は生成モデルの強力な再構成能力を活用することでこのような障壁を回避し、Masked AutoEncoder (BDMAE) によるブラインドディフェンスのフレームワークを提案します。
テスト画像と MAE 修復物間の画像構造の類似性とラベルの一貫性を使用して、トークン空間内の潜在的なトリガーを検出します。
次に、トリガー トポロジーを考慮して検出結果を絞り込みます。
最後に、予測を行うために MAE 修復を精製画像に適応的に融合します。
私たちのアプローチは、モデルのアーキテクチャ、トリガー パターン、画像の良性を考慮しません。
さまざまなバックドア設定での広範な実験により、その有効性と一般化可能性が検証されています。
コードは https://github.com/tsun/BDMAE で入手できます。

要約(オリジナル)

Deep neural networks are vulnerable to backdoor attacks, where an adversary maliciously manipulates the model behavior through overlaying images with special triggers. Existing backdoor defense methods often require accessing a few validation data and model parameters, which are impractical in many real-world applications, e.g., when the model is provided as a cloud service. In this paper, we address the practical task of blind backdoor defense at test time, in particular for black-box models. The true label of every test image needs to be recovered on the fly from a suspicious model regardless of image benignity. We focus on test-time image purification methods that incapacitate possible triggers while keeping semantic contents intact. Due to diverse trigger patterns and sizes, the heuristic trigger search in image space can be unscalable. We circumvent such barrier by leveraging the strong reconstruction power of generative models, and propose a framework of Blind Defense with Masked AutoEncoder (BDMAE). It detects possible triggers in the token space using image structural similarity and label consistency between the test image and MAE restorations. The detection results are then refined by considering trigger topology. Finally, we fuse MAE restorations adaptively into a purified image for making prediction. Our approach is blind to the model architectures, trigger patterns and image benignity. Extensive experiments under different backdoor settings validate its effectiveness and generalizability. Code is available at https://github.com/tsun/BDMAE.

arxiv情報

著者 Tao Sun,Lu Pang,Chao Chen,Haibin Ling
発行日 2023-10-02 15:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク