CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient Object Detection

要約

本研究では、RGB-Dの顕著な物体検出(SOD)タスクにおいて、クロスモダリティ情報をいかに効果的に捕らえ、利用するかという問題に着目し、新しいクロスモダリティ相互作用と洗練に基づく畳み込みニューラルネットワーク(CNN)モデル(CIR-Net)を発表する。クロスモダリティ相互作用では、1) エンコーダステージでRGB-D特徴表現を十分に統合するための漸進的注意誘導統合ユニットを提案し、2) デコーダステージで重要度ゲート付き融合ユニットを介してRGBと深度復号化特徴を対応するRGB-D復号化ストリームに流し込む収束統合構造を提案する。クロスモダリティ洗練のために、エンコーダとデコーダの間に洗練ミドルウェア構造を挿入し、自己モダリティ注目洗練ユニットとクロスモダリティ重み付け洗練ユニットを連続的に使用して、RGB、深度、RGB-Dエンコーダ特徴をさらに洗練する。最後に、徐々に洗練された特徴量を用いて、デコーダステージで顕著性マップを予測する。6つの一般的なRGB-D SODベンチマークに対する広範な実験により、我々のネットワークが定性的にも定量的にも最先端の顕著性検出器を凌駕することが実証された。

要約(オリジナル)

Focusing on the issue of how to effectively capture and utilize cross-modality information in RGB-D salient object detection (SOD) task, we present a convolutional neural network (CNN) model, named CIR-Net, based on the novel cross-modality interaction and refinement. For the cross-modality interaction, 1) a progressive attention guided integration unit is proposed to sufficiently integrate RGB-D feature representations in the encoder stage, and 2) a convergence aggregation structure is proposed, which flows the RGB and depth decoding features into the corresponding RGB-D decoding streams via an importance gated fusion unit in the decoder stage. For the cross-modality refinement, we insert a refinement middleware structure between the encoder and the decoder, in which the RGB, depth, and RGB-D encoder features are further refined by successively using a self-modality attention refinement unit and a cross-modality weighting refinement unit. At last, with the gradually refined features, we predict the saliency map in the decoder stage. Extensive experiments on six popular RGB-D SOD benchmarks demonstrate that our network outperforms the state-of-the-art saliency detectors both qualitatively and quantitatively.

arxiv情報

著者 Runmin Cong,Qinwei Lin,Chen Zhang,Chongyi Li,Xiaochun Cao,Qingming Huang,Yao Zhao
発行日 2022-10-06 11:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク