要約
本論文では、画像内のバックドアパターンを抽出して検出する簡単な方法を提案する:\それは、emph{Cognitive Distillation}(CD)である。このアイデアは、モデルの予測に関係する「最小の本質」を入力画像から抽出することである。CDは入力マスクを最適化して、入力画像から同じモデル出力(すなわちロジットや深層特徴)を導くことができる小さなパターンを抽出する。抽出されたパターンは、クリーンな画像とバックドア画像に対するモデルの認知メカニズムを理解するのに役立ち、そのため˶‾emph{Cognitive Pattern}(CP)と呼ばれます。CDと抽出されたCPを用いて、我々はバックドア攻撃の興味深い現象を発見した:異なる攻撃によって使用されるトリガーパターンの様々な形や大きさにもかかわらず、バックドアサンプルのCPはすべて驚くほど、疑わしいほど小さい。したがって、学習されたマスクを活用することで、汚染された訓練データセットからバックドア例を検出し、除去することができる。我々は広範な実験を行い、CDが広範囲の高度なバックドア攻撃を頑健に検出できることを示す。また、顔データセットから潜在的なバイアスを検出するためにCDを適用できる可能性があることも示す。コードは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)
要約(オリジナル)
This paper proposes a simple method to distill and detect backdoor patterns within an image: \emph{Cognitive Distillation} (CD). The idea is to extract the ‘minimal essence’ from an input image responsible for the model’s prediction. CD optimizes an input mask to extract a small pattern from the input image that can lead to the same model output (i.e., logits or deep features). The extracted pattern can help understand the cognitive mechanism of a model on clean vs. backdoor images and is thus called a \emph{Cognitive Pattern} (CP). Using CD and the distilled CPs, we uncover an interesting phenomenon of backdoor attacks: despite the various forms and sizes of trigger patterns used by different attacks, the CPs of backdoor samples are all surprisingly and suspiciously small. One thus can leverage the learned mask to detect and remove backdoor examples from poisoned training datasets. We conduct extensive experiments to show that CD can robustly detect a wide range of advanced backdoor attacks. We also show that CD can potentially be applied to help detect potential biases from face datasets. Code is available at \url{https://github.com/HanxunH/CognitiveDistillation}.
arxiv情報
著者 | Hanxun Huang,Xingjun Ma,Sarah Erfani,James Bailey |
発行日 | 2023-07-03 01:18:19+00:00 |
arxivサイト | arxiv_id(pdf) |