HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness

要約

RGB-D 顕著性検出は、マルチモーダル キューを融合して、顕著な領域を正確にローカライズすることを目的としています。
既存の作品では、機能モデリングに注意モジュールを採用することが多く、きめの細かい詳細を明示的に活用してセマンティック キューとマージする方法はほとんどありません。
したがって、補助的な深度情報にもかかわらず、既存のモデルでは、外観が似ているが異なるカメラ距離にあるオブジェクトを区別することは依然として困難です。
この論文では、新しい視点から、RGB-D 顕著性検出のための新しい Hierarchical Depth Awareness ネットワーク (HiDAnet) を提案します。
私たちの動機は、幾何学的事前分布の多粒度特性がニューラル ネットワーク階層とよく相関するという観察から来ています。
マルチモーダルおよびマルチレベルの融合を実現するために、まず粒度ベースの注意スキームを使用して、RGB と深度機能の識別力を個別に強化します。
次に、マルチモーダルおよびマルチレベルの融合のための統合されたクロスデュアルアテンションモジュールを粗から細かい方法で紹介します。
エンコードされたマルチモーダル機能は、共有デコーダーに徐々に集約されます。
さらに、マルチスケール損失を利用して、階層情報を最大限に活用します。
困難なベンチマーク データセットでの広範な実験は、HiDAnet が最先端の方法よりも大幅に有利に機能することを示しています。

要約(オリジナル)

RGB-D saliency detection aims to fuse multi-modal cues to accurately localize salient regions. Existing works often adopt attention modules for feature modeling, with few methods explicitly leveraging fine-grained details to merge with semantic cues. Thus, despite the auxiliary depth information, it is still challenging for existing models to distinguish objects with similar appearances but at distinct camera distances. In this paper, from a new perspective, we propose a novel Hierarchical Depth Awareness network (HiDAnet) for RGB-D saliency detection. Our motivation comes from the observation that the multi-granularity properties of geometric priors correlate well with the neural network hierarchies. To realize multi-modal and multi-level fusion, we first use a granularity-based attention scheme to strengthen the discriminatory power of RGB and depth features separately. Then we introduce a unified cross dual-attention module for multi-modal and multi-level fusion in a coarse-to-fine manner. The encoded multi-modal features are gradually aggregated into a shared decoder. Further, we exploit a multi-scale loss to take full advantage of the hierarchical information. Extensive experiments on challenging benchmark datasets demonstrate that our HiDAnet performs favorably over the state-of-the-art methods by large margins.

arxiv情報

著者 Zongwei Wu,Guillaume Allibert,Fabrice Meriaudeau,Chao Ma,Cédric Demonceaux
発行日 2023-01-18 10:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク