要約
オブジェクト検出モデルは、セキュリティが重要なアプリケーションで広く使用されていますが、特定のパターンによってトリガーされた場合に標的を絞った誤分類を引き起こすバックドア攻撃に対して脆弱です。
既存のバックドア防御技術は、主に画像分類器のような単純なモデル向けに設計されており、オブジェクト検出器でバックドアを効果的に検出して削除できないことがよくあります。
私たちは、バックドア攻撃がリージョン プロポーザル ネットワーク (RPN) や分類ヘッドなどのローカル モジュールの動作間に重大な不一致を引き起こすという観察に基づいて、オブジェクト検出モデルに合わせたバックドア防御フレームワークを提案します。
これらの不一致を定量化して分析することで、バックドアを検出するアルゴリズムを開発します。
通常、一貫性のないモジュールがバックドア動作の主な原因であることがわかり、影響を受けるモジュールを特定し、そのパラメーターをリセットし、小さなクリーンなデータセットでモデルを微調整する削除方法が必要になります。
最先端の 2 段階オブジェクト検出器を使用した広範な実験により、クリーン データの精度損失を 4% 未満に抑えながら、微調整ベースラインと比較してバックドア除去率が 90% 向上することがわかりました。
私たちの知る限り、この研究は 2 段階オブジェクト検出モデルにおけるバックドアの検出と削除の両方に対処する最初のアプローチを示しており、これらの複雑なシステムをバックドア攻撃から保護する分野を前進させます。
要約(オリジナル)
Object detection models, widely used in security-critical applications, are vulnerable to backdoor attacks that cause targeted misclassifications when triggered by specific patterns. Existing backdoor defense techniques, primarily designed for simpler models like image classifiers, often fail to effectively detect and remove backdoors in object detectors. We propose a backdoor defense framework tailored to object detection models, based on the observation that backdoor attacks cause significant inconsistencies between local modules’ behaviors, such as the Region Proposal Network (RPN) and classification head. By quantifying and analyzing these inconsistencies, we develop an algorithm to detect backdoors. We find that the inconsistent module is usually the main source of backdoor behavior, leading to a removal method that localizes the affected module, resets its parameters, and fine-tunes the model on a small clean dataset. Extensive experiments with state-of-the-art two-stage object detectors show our method achieves a 90% improvement in backdoor removal rate over fine-tuning baselines, while limiting clean data accuracy loss to less than 4%. To the best of our knowledge, this work presents the first approach that addresses both the detection and removal of backdoors in two-stage object detection models, advancing the field of securing these complex systems against backdoor attacks.
arxiv情報
著者 | Xianda Zhang,Siyuan Liang |
発行日 | 2024-09-24 12:58:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google