LeNo: Adversarial Robust Salient Object Detection Networks with Learnable Noise

要約

ディープ ニューラル ネットワークを使用したピクセル単位の予測は、顕著なオブジェクト検出 (SOD) の効果的なパラダイムになり、優れたパフォーマンスを達成しています。
ただし、人間の視覚的注意では視覚的に感知できない敵対的攻撃に対して堅牢な SOD モデルはほとんどありません。
前作のロバスト顕著性 (ROSA) は、事前にセグメント化されたスーパーピクセルをシャッフルし、密に接続された条件付き確率場 (CRF) によって粗い顕著性マップを改良します。
さまざまな前処理と後処理に依存する ROSA とは異なり、このホワイト ペーパーでは、SOD モデルに対する敵対的攻撃を防御するための軽量の学習可能ノイズ (LeNo) を提案します。
LeNo は、敵対的イメージとクリーン イメージの両方で SOD モデルの精度と推論速度を維持します。
一般に、LeNo は、任意の SOD ネットワークのエンコーダとデコーダにそれぞれ埋め込まれた単純な浅いノイズとノイズ推定で構成されます。
人間の視覚的注意メカニズムの中心事前分布に着想を得て、敵対的攻撃に対する防御を強化するために、浅いノイズを十字型のガウス分布で初期化します。
後処理のために追加のネットワーク コンポーネントを追加する代わりに、提案されたノイズ推定は、デコーダの 1 つのチャネルのみを変更します。
最先端の RGB および RGB-D SOD ネットワークでの、深く監視されたノイズ分離トレーニングにより、LeNo は、敵対的な画像だけでなく、SOD のより強力なロバスト性に貢献するクリーンな画像でも、以前の作業よりも優れています。
コードは https://github.com/ssecv/LeNo で入手できます。

要約(オリジナル)

Pixel-wise prediction with deep neural network has become an effective paradigm for salient object detection (SOD) and achieved remarkable performance. However, very few SOD models are robust against adversarial attacks which are visually imperceptible for human visual attention. The previous work robust saliency (ROSA) shuffles the pre-segmented superpixels and then refines the coarse saliency map by the densely connected conditional random field (CRF). Different from ROSA that relies on various pre- and post-processings, this paper proposes a light-weight Learnable Noise (LeNo) to defend adversarial attacks for SOD models. LeNo preserves accuracy of SOD models on both adversarial and clean images, as well as inference speed. In general, LeNo consists of a simple shallow noise and noise estimation that embedded in the encoder and decoder of arbitrary SOD networks respectively. Inspired by the center prior of human visual attention mechanism, we initialize the shallow noise with a cross-shaped gaussian distribution for better defense against adversarial attacks. Instead of adding additional network components for post-processing, the proposed noise estimation modifies only one channel of the decoder. With the deeply-supervised noise-decoupled training on state-of-the-art RGB and RGB-D SOD networks, LeNo outperforms previous works not only on adversarial images but also on clean images, which contributes stronger robustness for SOD. Our code is available at https://github.com/ssecv/LeNo.

arxiv情報

著者 He Wang,Lin Wan,He Tang
発行日 2022-12-07 13:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク