Defending Adversarial Patches via Joint Region Localizing and Inpainting

要約

ディープ ニューラル ネットワークはさまざまなアプリケーションでうまく使用されていますが、敵対的な例に対しては脆弱性があります。
敵対的パッチの開発により、物理的なシーンでの攻撃の実行可能性が高まり、パッチ攻撃に対する防御が緊急に必要とされています。
しかし、このような敵対的パッチ攻撃の防御は依然として未解決の問題です。
この論文では、敵対的パッチの特性を分析し、次のことを発見しました。一方で、敵対的パッチはターゲット オブジェクトの外観やコンテキストの不一致を引き起こします。
一方、パッチ領域は、バックボーン ネットワークによって抽出されたオブジェクトの高レベルの特徴マップに異常な変化を示します。
上記の 2 点を考慮して、入力例を前処理する「ローカライズと修復」メカニズムに基づく新しい防御方法を提案します。
具体的には、「位置特定」サブネットワークが 2 分岐構造を利用して上記 2 つの側面を表現し、画像内の敵対的パッチ領域を正確に検出する統一フレームワークを設計します。
「修復」サブネットワークの場合、周囲のコンテキスト キューを利用して、敵対的パッチでカバーされている元のコンテンツを復元します。
ペイントされた画像の品質は、外観の一貫性と敵対的攻撃の影響を測定することによっても評価されます。
これら 2 つのサブネットワークは、反復的な最適化方法によって共同でトレーニングされます。
このようにして、「ローカライズ」モジュールと「修復」モジュールは相互に密接に対話し、より良いソリューションを学習することができます。
さまざまな敵対的パッチ攻撃を防御するために、交通標識の分類および検出タスクに対する一連の実験が実施されます。

要約(オリジナル)

Deep neural networks are successfully used in various applications, but show their vulnerability to adversarial examples. With the development of adversarial patches, the feasibility of attacks in physical scenes increases, and the defenses against patch attacks are urgently needed. However, defending such adversarial patch attacks is still an unsolved problem. In this paper, we analyse the properties of adversarial patches, and find that: on the one hand, adversarial patches will lead to the appearance or contextual inconsistency in the target objects; on the other hand, the patch region will show abnormal changes on the high-level feature maps of the objects extracted by a backbone network. Considering the above two points, we propose a novel defense method based on a “localizing and inpainting’ mechanism to pre-process the input examples. Specifically, we design an unified framework, where the “localizing’ sub-network utilizes a two-branch structure to represent the above two aspects to accurately detect the adversarial patch region in the image. For the “inpainting’ sub-network, it utilizes the surrounding contextual cues to recover the original content covered by the adversarial patch. The quality of inpainted images is also evaluated by measuring the appearance consistency and the effects of adversarial attacks. These two sub-networks are then jointly trained via an iterative optimization manner. In this way, the “localizing’ and “inpainting’ modules can interact closely with each other, and thus learn a better solution. A series of experiments versus traffic sign classification and detection tasks are conducted to defend against various adversarial patch attacks.

arxiv情報

著者 Junwen Chen,Xingxing Wei
発行日 2023-07-26 15:11:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク