Rethinking Backdoor Attacks

要約

バックドア攻撃では、攻撃者は悪意を持って構築されたバックドアのサンプルをトレーニング セットに挿入し、結果として得られるモデルを操作に対して脆弱にします。
このような攻撃に対する防御には、通常、これらの挿入されたサンプルをトレーニング セット内の外れ値として表示し、それらを検出して削除するための堅牢な統計からの手法を使用することが含まれます。
この研究では、バックドア攻撃の問題に対する別のアプローチを紹介します。
具体的には、トレーニング データの分布に関する構造情報がなければ、バックドア攻撃はデータ内に自然に発生する特徴と区別できず、したがって一般的な意味で「検出」することは不可能であることを示します。
次に、この観察に基づいて、バックドア攻撃に対する既存の防御策を再検討し、バックドア攻撃が行う (多くの場合潜在的な) 前提条件とそれが依存する前提条件を特徴付けます。
最後に、バックドア攻撃に関する別の観点を検討します。これは、これらの攻撃がトレーニング データの最も強力な特徴に対応すると仮定するものです。
この仮定 (これを正式なものとします) に基づいて、バックドア攻撃を検出するための新しいプリミティブを開発します。
私たちのプリミティブは、理論的に保証され、実際に効果的な検出アルゴリズムを自然に生み出します。

要約(オリジナル)

In a backdoor attack, an adversary inserts maliciously constructed backdoor examples into a training set to make the resulting model vulnerable to manipulation. Defending against such attacks typically involves viewing these inserted examples as outliers in the training set and using techniques from robust statistics to detect and remove them. In this work, we present a different approach to the backdoor attack problem. Specifically, we show that without structural information about the training data distribution, backdoor attacks are indistinguishable from naturally-occurring features in the data–and thus impossible to ‘detect’ in a general sense. Then, guided by this observation, we revisit existing defenses against backdoor attacks and characterize the (often latent) assumptions they make and on which they depend. Finally, we explore an alternative perspective on backdoor attacks: one that assumes these attacks correspond to the strongest feature in the training data. Under this assumption (which we make formal) we develop a new primitive for detecting backdoor attacks. Our primitive naturally gives rise to a detection algorithm that comes with theoretical guarantees and is effective in practice.

arxiv情報

著者 Alaa Khaddaj,Guillaume Leclerc,Aleksandar Makelov,Kristian Georgiev,Hadi Salman,Andrew Ilyas,Aleksander Madry
発行日 2023-07-19 17:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML パーマリンク