Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers

要約

深度センサーの利用可能性が高まるにつれ、色情報と深度データを組み合わせるマルチモーダル フレームワークが注目を集めています。
ただし、セマンティック セグメンテーションのグラウンド トゥルース データを提供するのは面倒なため、ドメイン適応が重要な研究分野となっています。
しかし、ほとんどのドメイン適応方法は、マルチモーダル データを効果的に処理できません。
具体的には、ソース データを再利用せずに適応を実行する、困難なソースフリー ドメイン適応設定に取り組みます。
私たちは、MISFIT: MultImodal Source-Free Information fusion Transformer を提案します。これは、複数の段階、つまり入力レベル、特徴レベル、出力レベルでビジョン トランスフォーマーに基づくセグメンテーション モジュールに深度データを注入する深度認識フレームワークです。
カラーと深度スタイルの転送は、初期段階のドメイン調整に役立ちますが、モダリティ間のセルフアテンションの再配線により混合機能が作成され、より適切なセマンティック コンテンツの抽出が可能になります。
さらに、異なる距離にある領域に適応的に重み付けを行う、深さに基づくエントロピー最小化戦略も提案されています。
私たちのフレームワークは、ソースフリーのセマンティック セグメンテーションに RGB-D ビジョン トランスフォーマーを使用する最初のアプローチでもあり、標準的な戦略と比べて顕著なパフォーマンスの向上を示しています。

要約(オリジナル)

With the increasing availability of depth sensors, multimodal frameworks that combine color information with depth data are gaining interest. However, ground truth data for semantic segmentation is burdensome to provide, thus making domain adaptation a significant research area. Yet most domain adaptation methods are not able to effectively handle multimodal data. Specifically, we address the challenging source-free domain adaptation setting where the adaptation is performed without reusing source data. We propose MISFIT: MultImodal Source-Free Information fusion Transformer, a depth-aware framework which injects depth data into a segmentation module based on vision transformers at multiple stages, namely at the input, feature and output levels. Color and depth style transfer helps early-stage domain alignment while re-wiring self-attention between modalities creates mixed features, allowing the extraction of better semantic content. Furthermore, a depth-based entropy minimization strategy is also proposed to adaptively weight regions at different distances. Our framework, which is also the first approach using RGB-D vision transformers for source-free semantic segmentation, shows noticeable performance improvements with respect to standard strategies.

arxiv情報

著者 Giulia Rizzoli,Donald Shenaj,Pietro Zanuttigh
発行日 2023-12-06 18:21:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク