要約
オブジェクト検出モデルは、予測を操作するために事前定義されたトリガーを埋め込むことにより、攻撃者がトレーニングサンプルの小さなサブセットを毒する、バックドア攻撃に対して脆弱です。
テスト時に毒されたサンプル(つまり、トリガーを含むもの)を検出すると、バックドアの活性化を防ぐことができます。
ただし、画像分類タスクとは異なり、オブジェクト検出のユニークな特性(特に多数のオブジェクトの出力)は、バックドア検出に新たな課題をもたらします。
複雑な攻撃効果(たとえば、「ゴースト」オブジェクトの出現または「消失」オブジェクトなど)は、現在の防御を根本的に不十分にします。
この目的のために、オブジェクト検出のテスト時に毒されたサンプルを検出するための最新の方法である変換の一貫性評価(TRACE)を設計します。
私たちの旅は、2つの興味深い観察から始まります。(1)毒されたサンプルは、さまざまな背景にわたってクリーンなものよりもかなり一貫した検出結果を示します。
(2)クリーンサンプルは、異なる焦点情報に導入された場合、より高い検出一貫性を示します。
これらの現象に基づいて、TRACEは各テストサンプルに前景とバックグラウンドの変換を適用し、オブジェクトの自信の分散を計算することにより、変換の一貫性を評価します。
Traceは、ブラックボックスのユニバーサルバックドア検出を実現し、最先端の防御と適応攻撃に対する抵抗に対するAUROCの30%の改善を示す広範な実験を行います。
要約(オリジナル)
Object detection models are vulnerable to backdoor attacks, where attackers poison a small subset of training samples by embedding a predefined trigger to manipulate prediction. Detecting poisoned samples (i.e., those containing triggers) at test time can prevent backdoor activation. However, unlike image classification tasks, the unique characteristics of object detection — particularly its output of numerous objects — pose fresh challenges for backdoor detection. The complex attack effects (e.g., ‘ghost’ object emergence or ‘vanishing’ object) further render current defenses fundamentally inadequate. To this end, we design TRAnsformation Consistency Evaluation (TRACE), a brand-new method for detecting poisoned samples at test time in object detection. Our journey begins with two intriguing observations: (1) poisoned samples exhibit significantly more consistent detection results than clean ones across varied backgrounds. (2) clean samples show higher detection consistency when introduced to different focal information. Based on these phenomena, TRACE applies foreground and background transformations to each test sample, then assesses transformation consistency by calculating the variance in objects confidences. TRACE achieves black-box, universal backdoor detection, with extensive experiments showing a 30% improvement in AUROC over state-of-the-art defenses and resistance to adaptive attacks.
arxiv情報
著者 | Hangtao Zhang,Yichen Wang,Shihui Yan,Chenyu Zhu,Ziqi Zhou,Linshan Hou,Shengshan Hu,Minghui Li,Yanjun Zhang,Leo Yu Zhang |
発行日 | 2025-03-19 15:12:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google