DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation

要約

RGB-D セグメンテーション タスクの転送可能な表現を学習するための新しい RGB-D 事前トレーニング フレームワークである DFormer を紹介します。
DFormer には 2 つの新しい重要な革新があります。 1) RGB 事前トレーニング済みバックボーンを使用して RGB-D 情報をエンコードする以前の作品とは異なり、ImageNet-1K からの画像深度ペアを使用してバックボーンを事前トレーニングするため、DFormer には RGB をエンコードする能力が与えられます。
D 表現。
2) DFormer は、一連の RGB-D ブロックで構成されており、新しいビルディング ブロック設計を通じて RGB 情報と深度情報の両方をエンコードするように調整されています。
DFormer は、RGB 事前トレーニング済みバックボーンによる深度マップの 3D ジオメトリ関係の不一致エンコードを回避します。この不一致は既存の方法に広く存在しますが、解決されていません。
軽量のデコーダ ヘッドを使用して、2 つの一般的な RGB-D タスク、つまり RGB-D セマンティック セグメンテーションと RGB-D 顕著オブジェクト検出に関して事前トレーニングされた DFormer を微調整します。
実験結果は、当社の DFormer が、2 つの RGB-D セマンティック セグメンテーション データセットと 5 つの RGB-D 顕著オブジェクト検出データセットに対する現在の最良の方法の半分未満の計算コストで、これら 2 つのタスクで新しい最先端のパフォーマンスを達成することを示しています。

私たちのコードは https://github.com/VCIP-RGBD/DFormer で入手できます。

要約(オリジナル)

We present DFormer, a novel RGB-D pretraining framework to learn transferable representations for RGB-D segmentation tasks. DFormer has two new key innovations: 1) Unlike previous works that encode RGB-D information with RGB pretrained backbone, we pretrain the backbone using image-depth pairs from ImageNet-1K, and hence the DFormer is endowed with the capacity to encode RGB-D representations; 2) DFormer comprises a sequence of RGB-D blocks, which are tailored for encoding both RGB and depth information through a novel building block design. DFormer avoids the mismatched encoding of the 3D geometry relationships in depth maps by RGB pretrained backbones, which widely lies in existing methods but has not been resolved. We finetune the pretrained DFormer on two popular RGB-D tasks, i.e., RGB-D semantic segmentation and RGB-D salient object detection, with a lightweight decoder head. Experimental results show that our DFormer achieves new state-of-the-art performance on these two tasks with less than half of the computational cost of the current best methods on two RGB-D semantic segmentation datasets and five RGB-D salient object detection datasets. Our code is available at: https://github.com/VCIP-RGBD/DFormer.

arxiv情報

著者 Bowen Yin,Xuying Zhang,Zhongyu Li,Li Liu,Ming-Ming Cheng,Qibin Hou
発行日 2024-02-07 11:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク