HODINet: High-Order Discrepant Interaction Network for RGB-D Salient Object Detection

要約

RGB-D 顕著オブジェクト検出 (SOD) は、RGB と深度情報を共同でモデル化することで顕著な領域を検出することを目的としています。
ほとんどの RGB-D SOD メソッドは、同じタイプのバックボーンと融合モジュールを適用して、マルチモダリティとマルチステージの機能を同様に学習します。
ただし、これらの特徴は最終的な顕著性の結果に異なる形で寄与するため、次の 2 つの問題が生じます。1) RGB 画像と深度マップの不一致特性をモデル化する方法。
2)これらのクロスモダリティ機能をさまざまな段階でどのように融合するか。
本稿では、RGB-D SOD 用の高次不一致相互作用ネットワーク (HODINet) を提案します。
具体的には、まず、RGB 特徴と深度特徴をそれぞれエンコードするためのバックボーンとして、トランスフォーマー ベースと CNN ベースのアーキテクチャを採用します。
次に、高次の表現が繊細に抽出され、さまざまな段階でのクロスモダリティ特徴融合のための空間的およびチャネル的注意に埋め込まれます。
具体的には、高次空間融合 (HOSF) モジュールと高次チャネル融合 (HOCF) モジュールを設計して、それぞれ最初の 2 つのステージと最後の 2 つのステージの機能を融合します。
さらに、カスケード ピラミッド再構成ネットワークが採用され、トップダウン経路で融合された特徴を段階的にデコードします。
提案されたアプローチの有効性を実証するために、広く使用されている 7 つのデータセットに対して広範な実験が行われています。
当社は、4 つの評価指標に基づいて 24 の最先端の手法に対して競争力のあるパフォーマンスを達成しています。

要約(オリジナル)

RGB-D salient object detection (SOD) aims to detect the prominent regions by jointly modeling RGB and depth information. Most RGB-D SOD methods apply the same type of backbones and fusion modules to identically learn the multimodality and multistage features. However, these features contribute differently to the final saliency results, which raises two issues: 1) how to model discrepant characteristics of RGB images and depth maps; 2) how to fuse these cross-modality features in different stages. In this paper, we propose a high-order discrepant interaction network (HODINet) for RGB-D SOD. Concretely, we first employ transformer-based and CNN-based architectures as backbones to encode RGB and depth features, respectively. Then, the high-order representations are delicately extracted and embedded into spatial and channel attentions for cross-modality feature fusion in different stages. Specifically, we design a high-order spatial fusion (HOSF) module and a high-order channel fusion (HOCF) module to fuse features of the first two and the last two stages, respectively. Besides, a cascaded pyramid reconstruction network is adopted to progressively decode the fused features in a top-down pathway. Extensive experiments are conducted on seven widely used datasets to demonstrate the effectiveness of the proposed approach. We achieve competitive performance against 24 state-of-the-art methods under four evaluation metrics.

arxiv情報

著者 Kang Yi,Jing Xu,Xiao Jin,Fu Guo,Yan-Feng Wu
発行日 2023-07-03 11:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク