Fusion-then-Distillation: Toward Cross-modal Positive Distillation for Domain Adaptive 3D Semantic Segmentation

要約

クロスモーダル教師なしドメイン適応では、ソース ドメイン データ (合成など) でトレーニングされたモデルが、ターゲット アノテーションにアクセスせずにターゲット ドメイン データ (現実世界など) に適応されます。
以前の方法は、各ドメインでクロスモーダル出力を相互に模倣することを目的としており、これにより、異なるドメインで一致するクラス確率分布が強制されます。
しかし、彼らは、クロスモーダル学習における異種融合によってもたらされる相補性を見落としています。
これを考慮して、3D セマンティック セグメンテーションのソース ドメインとターゲット ドメインのクロスモーダルなポジティブ蒸留を探索するための新しい融合後蒸留 (FtD++) 方法を提案します。
FtD++ は、2D 画像と 3D 点群だけでなく、ソース ドメインと拡張ドメインの出力間の分散の一貫性を実現します。
特に、私たちのメソッドには 3 つの重要な要素が含まれています。
まず、潜在空間を確立するためのクロスモーダル融合表現を生成するモデルに依存しない特徴融合モジュールを提示します。
この空間では、2 つのモダリティが最大限の相関性と相補性を実現します。
第二に、提案されたクロスモーダルポジティブ蒸留は、マルチモーダル入力の完全な情報を保存し、ソースドメインの意味論的な内容とターゲットドメインのスタイルを組み合わせて、ドメインモダリティの調整を実現します。
最後に、クロスモーダルバイアスを軽減した擬似ラベル付けが、自己学習方法によって擬似ラベルの不確実性をモデル化するために考案されました。
広範な実験により、教師なしおよび半教師あり設定におけるいくつかのドメイン適応シナリオに関する最先端の結果が報告されています。
コードは https://github.com/Barcaaaa/FtD-PlusPlus で入手できます。

要約(オリジナル)

In cross-modal unsupervised domain adaptation, a model trained on source-domain data (e.g., synthetic) is adapted to target-domain data (e.g., real-world) without access to target annotation. Previous methods seek to mutually mimic cross-modal outputs in each domain, which enforces a class probability distribution that is agreeable in different domains. However, they overlook the complementarity brought by the heterogeneous fusion in cross-modal learning. In light of this, we propose a novel fusion-then-distillation (FtD++) method to explore cross-modal positive distillation of the source and target domains for 3D semantic segmentation. FtD++ realizes distribution consistency between outputs not only for 2D images and 3D point clouds but also for source-domain and augment-domain. Specially, our method contains three key ingredients. First, we present a model-agnostic feature fusion module to generate the cross-modal fusion representation for establishing a latent space. In this space, two modalities are enforced maximum correlation and complementarity. Second, the proposed cross-modal positive distillation preserves the complete information of multi-modal input and combines the semantic content of the source domain with the style of the target domain, thereby achieving domain-modality alignment. Finally, cross-modal debiased pseudo-labeling is devised to model the uncertainty of pseudo-labels via a self-training manner. Extensive experiments report state-of-the-art results on several domain adaptive scenarios under unsupervised and semi-supervised settings. Code is available at https://github.com/Barcaaaa/FtD-PlusPlus.

arxiv情報

著者 Yao Wu,Mingwei Xing,Yachao Zhang,Yuan Xie,Yanyun Qu
発行日 2024-10-25 10:14:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク