Defending Deep Regression Models against Backdoor Attacks

要約

深層回帰モデルは、安全性が重要なさまざまなアプリケーションで使用されていますが、バックドア攻撃に対して脆弱です。
分類モデルに対して多くの防御策が提案されていますが、それらは回帰モデルの一意性を考慮していないため、効果がありません。
まず、回帰モデルの出力は離散化されたラベルではなく連続値です。
したがって、バックドア回帰モデルの潜在的な感染ターゲットには無限の可能性があり、既存の防御策によって特定することは不可能です。
第 2 に、バックドア化された深層回帰モデルのバックドア動作は、特徴空間内のすべてのニューロンの活性化値によってトリガーされるため、既存の防御手段を使用して検出して軽減することが困難になります。
これらの問題を解決するために、画像ドメインの深層回帰モデルがバックドア化されているかどうかを識別する最初の防御策である DRMGuard を提案します。
DRMGuard は、バックドア深度回帰モデルの固有の出力空間と特徴空間の特性に基づいて、リバース エンジニアリングのための最適化問題を定式化します。
2 つの回帰タスクと 4 つのデータセットに対して広範な評価を実施します。
結果は、DRMGuard がさまざまなバックドア攻撃を一貫して防御できることを示しています。
また、分類器用に設計された 4 つの最先端の防御策を回帰モデルに一般化し、DRMGuard をそれらと比較します。
結果は、DRMGuard がこれらすべての防御よりも大幅に優れていることを示しています。

要約(オリジナル)

Deep regression models are used in a wide variety of safety-critical applications, but are vulnerable to backdoor attacks. Although many defenses have been proposed for classification models, they are ineffective as they do not consider the uniqueness of regression models. First, the outputs of regression models are continuous values instead of discretized labels. Thus, the potential infected target of a backdoored regression model has infinite possibilities, which makes it impossible to be determined by existing defenses. Second, the backdoor behavior of backdoored deep regression models is triggered by the activation values of all the neurons in the feature space, which makes it difficult to be detected and mitigated using existing defenses. To resolve these problems, we propose DRMGuard, the first defense to identify if a deep regression model in the image domain is backdoored or not. DRMGuard formulates the optimization problem for reverse engineering based on the unique output-space and feature-space characteristics of backdoored deep regression models. We conduct extensive evaluations on two regression tasks and four datasets. The results show that DRMGuard can consistently defend against various backdoor attacks. We also generalize four state-of-the-art defenses designed for classifiers to regression models, and compare DRMGuard with them. The results show that DRMGuard significantly outperforms all those defenses.

arxiv情報

著者 Lingyu Du,Yupei Liu,Jinyuan Jia,Guohao Lan
発行日 2024-11-07 15:49:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク