要約
少数の汚染されたサンプルがディープ ニューラル ネットワークのトレーニング データセットに注入されると、推論中にネットワークが悪意のある動作を示すように誘導され、現実世界のアプリケーションに潜在的な脅威をもたらす可能性があります。
分類に関しては集中的に研究されてきましたが、セマンティック セグメンテーションに対するバックドア攻撃はほとんど見落とされてきました。
分類とは異なり、セマンティック セグメンテーションは、特定の画像内のすべてのピクセルを分類することを目的としています。
この研究では、インフルエンサー バックドア攻撃 (IBA) と呼ばれる、推論中に非被害者ピクセルに特定のトリガーを注入することにより、被害者クラスのすべてのピクセルを誤って分類するセグメンテーション モデルに対するバックドア攻撃を調査します。
IBA は、すべての推論において非被害ピクセルの分類精度を維持し、すべての被害ピクセルの分類を誤らせることが期待されており、現実世界のシーンに簡単に適用できます。
セグメンテーション モデルのコンテキスト集約機能に基づいて、シンプルでありながら効果的な最近傍トリガー インジェクション戦略を提案しました。
また、トリガーが犠牲ピクセルから遠く離れた場所に配置された場合でも、最適なパフォーマンスを維持する革新的なピクセル ランダム ラベリング戦略も導入します。
私たちの広範な実験により、現在のセグメンテーション モデルがバックドア攻撃の影響を受けていることが明らかになり、IBA の実世界への適用可能性が実証され、私たちが提案する手法が攻撃パフォーマンスをさらに向上できることが示されました。
要約(オリジナル)
When a small number of poisoned samples are injected into the training dataset of a deep neural network, the network can be induced to exhibit malicious behavior during inferences, which poses potential threats to real-world applications. While they have been intensively studied in classification, backdoor attacks on semantic segmentation have been largely overlooked. Unlike classification, semantic segmentation aims to classify every pixel within a given image. In this work, we explore backdoor attacks on segmentation models to misclassify all pixels of a victim class by injecting a specific trigger on non-victim pixels during inferences, which is dubbed Influencer Backdoor Attack (IBA). IBA is expected to maintain the classification accuracy of non-victim pixels and mislead classifications of all victim pixels in every single inference and could be easily applied to real-world scenes. Based on the context aggregation ability of segmentation models, we proposed a simple, yet effective, Nearest-Neighbor trigger injection strategy. We also introduce an innovative Pixel Random Labeling strategy which maintains optimal performance even when the trigger is placed far from the victim pixels. Our extensive experiments reveal that current segmentation models do suffer from backdoor attacks, demonstrate IBA real-world applicability, and show that our proposed techniques can further increase attack performance.
arxiv情報
著者 | Haoheng Lan,Jindong Gu,Philip Torr,Hengshuang Zhao |
発行日 | 2024-04-09 17:44:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google