LeNo: Adversarial Robust Salient Object Detection Networks with Learnable Noise

要約

ディープ ニューラル ネットワークを使用したピクセル単位の予測は、顕著なオブジェクト検出 (SOD) の効果的なパラダイムになり、驚異的なパフォーマンスを達成しました。
ただし、人間の視覚的注意では視覚的に感知できない敵対的攻撃に対して堅牢な SOD モデルはほとんどありません。
前作の敵対的攻撃に対する堅牢な顕著なオブジェクト検出 (ROSA) は、事前にセグメント化されたスーパーピクセルをシャッフルし、密に接続された CRF によって粗い顕著性マップを改良します。
さまざまな前処理と後処理に依存する ROSA とは異なり、このホワイト ペーパーでは、SOD モデルに対する敵対的攻撃に対抗するための軽量の Learnble Noise (LeNo) を提案します。
LeNo は、敵対的イメージとクリーン イメージの両方で SOD モデルの精度と推論速度を維持します。
一般に、LeNo は、任意の SOD ネットワークのエンコーダとデコーダにそれぞれ埋め込まれた単純な浅いノイズとノイズ推定で構成されます。
人間の視覚的注意メカニズムの中心事前分布に着想を得て、敵対的攻撃に対する防御を強化するために、浅いノイズを十字型のガウス分布で初期化します。
後処理のために追加のネットワーク コンポーネントを追加する代わりに、提案されたノイズ推定は、デコーダの 1 つのチャネルのみを変更します。
最先端の RGB および RGB-D SOD ネットワークでの、深く監視されたノイズ分離トレーニングにより、LeNo は、敵対的な画像だけでなく、クリーンな画像でも以前の作業よりも優れており、SOD のより強力なロバスト性に貢献しています。

要約(オリジナル)

Pixel-wise predction with deep neural network has become an effective paradigm for salient object detection (SOD) and achieved remakable performance. However, very few SOD models are robust against adversarial attacks which are visually imperceptible for human visual attention. The previous work robust salient object detection against adversarial attacks (ROSA) shuffles the pre-segmented superpixels and then refines the coarse saliency map by the densely connected CRF. Different from ROSA that rely on various pre- and post-processings, this paper proposes a light-weight Learnble Noise (LeNo) to against adversarial attacks for SOD models. LeNo preserves accuracy of SOD models on both adversarial and clean images, as well as inference speed. In general, LeNo consists of a simple shallow noise and noise estimation that embedded in the encoder and decoder of arbitrary SOD networks respectively. Inspired by the center prior of human visual attention mechanism, we initialize the shallow noise with a cross-shaped gaussian distribution for better defense against adversarial attacks. Instead of adding additional network components for post-processing, the proposed noise estimation modifies only one channel of the decoder. With the deeply-supervised noise-decoupled training on state-of-the-art RGB and RGB-D SOD networks, LeNo outperforms previous works not only on adversarial images but also clean images, which contributes stronger robustness for SOD.

arxiv情報

著者 He Tang,He Wang
発行日 2022-10-27 12:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク