Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection

要約

顕著な物体検出は、与えられたシーンにおいて、人間が注目する領域を予測するタスクである。この課題には、奥行き情報の融合が有効であることが証明されている。この問題の主な課題は、RGBモダリティと深度モダリティからの相補的な情報をどのように集約するかということである。しかし、従来のディープモデルはCNNの特徴抽出器に大きく依存しており、長距離の文脈依存性は通常無視されている。本研究では、Dual Swin-Transformer based Mutual Interactive Networkを提案する。視覚入力の長距離依存性をモデル化するために、RGBと奥行きの両方のモダリティの特徴抽出器としてSwin-Transformerを採用する。2つの特徴量を1つに統合する前に、注意に基づくモジュールを適用し、それぞれのモダリティからの特徴量を強化する。我々は、2つのモダリティ間の補完的な情報を活用するために、自己注意に基づくクロスモダリティ相互作用モジュールとゲーテッドモダリティ注意モジュールを設計する。顕著性復号のために、我々は、密な接続で強化された異なるステージを作成し、多レベルの符号化特徴を同時に考慮しながら、復号メモリを保持する。深度マップの不正確さを考慮し、RGBモダリティから最終的な顕著性予測へのより多くのガイダンスを与えるために、初期段階のRGB特徴をスキップ畳み込みモジュールに集めます。さらに、特徴学習プロセスを正則化するために、エッジ監視を追加する。5つの標準的なRGB-D SODベンチマークデータセットに対して、4つの評価指標に関する包括的な実験を行い、提案するDTMINet手法の優位性を実証する。

要約(オリジナル)

Salient Object Detection is the task of predicting the human attended region in a given scene. Fusing depth information has been proven effective in this task. The main challenge of this problem is how to aggregate the complementary information from RGB modality and depth modality. However, conventional deep models heavily rely on CNN feature extractors, and the long-range contextual dependencies are usually ignored. In this work, we propose Dual Swin-Transformer based Mutual Interactive Network. We adopt Swin-Transformer as the feature extractor for both RGB and depth modality to model the long-range dependencies in visual inputs. Before fusing the two branches of features into one, attention-based modules are applied to enhance features from each modality. We design a self-attention-based cross-modality interaction module and a gated modality attention module to leverage the complementary information between the two modalities. For the saliency decoding, we create different stages enhanced with dense connections and keep a decoding memory while the multi-level encoding features are considered simultaneously. Considering the inaccurate depth map issue, we collect the RGB features of early stages into a skip convolution module to give more guidance from RGB modality to the final saliency prediction. In addition, we add edge supervision to regularize the feature learning process. Comprehensive experiments on five standard RGB-D SOD benchmark datasets over four evaluation metrics demonstrate the superiority of the proposed DTMINet method.

arxiv情報

著者 Chao Zeng,Sam Kwong
発行日 2022-06-07 08:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク