SODAWideNet++: Combining Attention and Convolutions for Salient Object Detection

要約

顕著なオブジェクト検出 (SOD) は従来、ImageNet の事前トレーニングされたバックボーンの機能を利用する機能改良モジュールに依存してきました。
ただし、このアプローチでは、SOD と画像分類の独特な性質により、ネットワーク全体を事前トレーニングする可能性が制限されます。
さらに、もともと画像分類用に構築されたこれらのバックボーンのアーキテクチャは、SOD のような高密度予測タスクには最適ではありません。
これらの問題に対処するために、私たちは、SOD 用に明示的に設計された SODAwideNet++ と呼ばれる新しいエンコーダ/デコーダ スタイルのニューラル ネットワークを提案します。
初期段階から全体的な受容野を獲得するビジョントランスフォーマーの能力に触発され、大規模な拡張畳み込みと自己注意を組み合わせた注意誘導長距離特徴抽出 (AGLRFE) モジュールを導入します。
具体的には、アテンション機能を使用して、複数の拡張畳み込みによって抽出された長距離情報をガイドし、畳み込み演算の誘導バイアスと自己注意によってもたらされる入力依存性を利用します。
ImageNet 事前トレーニングの現在のパラダイムとは対照的に、提案されたモデルをエンドツーエンドで事前トレーニングするために、アノテーションを 2 値化することで COCO セマンティック セグメンテーション データセットからの 118K のアノテーション付き画像を変更します。
さらに、前景とともに背景の予測を監視して、モデルをプッシュして正確な顕著性予測を生成します。
SODAwideNet++ は、最先端のモデルと比較して、トレーニング可能なパラメーターの 35% しか含まれていないにもかかわらず、5 つの異なるデータセットで競合的に実行します。
コードと事前に計算された顕著性マップは、https://github.com/VimsLab/SODAwideNetPlusPlus で提供されます。

要約(オリジナル)

Salient Object Detection (SOD) has traditionally relied on feature refinement modules that utilize the features of an ImageNet pre-trained backbone. However, this approach limits the possibility of pre-training the entire network because of the distinct nature of SOD and image classification. Additionally, the architecture of these backbones originally built for Image classification is sub-optimal for a dense prediction task like SOD. To address these issues, we propose a novel encoder-decoder-style neural network called SODAWideNet++ that is designed explicitly for SOD. Inspired by the vision transformers ability to attain a global receptive field from the initial stages, we introduce the Attention Guided Long Range Feature Extraction (AGLRFE) module, which combines large dilated convolutions and self-attention. Specifically, we use attention features to guide long-range information extracted by multiple dilated convolutions, thus taking advantage of the inductive biases of a convolution operation and the input dependency brought by self-attention. In contrast to the current paradigm of ImageNet pre-training, we modify 118K annotated images from the COCO semantic segmentation dataset by binarizing the annotations to pre-train the proposed model end-to-end. Further, we supervise the background predictions along with the foreground to push our model to generate accurate saliency predictions. SODAWideNet++ performs competitively on five different datasets while only containing 35% of the trainable parameters compared to the state-of-the-art models. The code and pre-computed saliency maps are provided at https://github.com/VimsLab/SODAWideNetPlusPlus.

arxiv情報

著者 Rohit Venkata Sai Dulam,Chandra Kambhamettu
発行日 2024-08-29 15:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク