Fusion-then-Distillation: Toward Cross-modal Positive Distillation for Domain Adaptive 3D Semantic Segmentation


クロスモーダル教師なしドメイン適応では、ソース ドメイン データ (合成など) でトレーニングされたモデルが、ターゲット アノテーションにアクセスせずにターゲット ドメイン データ (現実世界など) に適応されます。
これを考慮して、3D セマンティック セグメンテーションのソース ドメインとターゲット ドメインのクロスモーダルなポジティブ蒸留を探索するための新しい融合後蒸留 (FtD++) 方法を提案します。
FtD++ は、2D 画像と 3D 点群だけでなく、ソース ドメインと拡張ドメインの出力間の分散の一貫性を実現します。
特に、私たちのメソッドには 3 つの重要な要素が含まれています。
この空間では、2 つのモダリティが最大限の相関性と相補性を実現します。
コードは https://github.com/Barcaaaa/FtD-PlusPlus で入手できます。


In cross-modal unsupervised domain adaptation, a model trained on source-domain data (e.g., synthetic) is adapted to target-domain data (e.g., real-world) without access to target annotation. Previous methods seek to mutually mimic cross-modal outputs in each domain, which enforces a class probability distribution that is agreeable in different domains. However, they overlook the complementarity brought by the heterogeneous fusion in cross-modal learning. In light of this, we propose a novel fusion-then-distillation (FtD++) method to explore cross-modal positive distillation of the source and target domains for 3D semantic segmentation. FtD++ realizes distribution consistency between outputs not only for 2D images and 3D point clouds but also for source-domain and augment-domain. Specially, our method contains three key ingredients. First, we present a model-agnostic feature fusion module to generate the cross-modal fusion representation for establishing a latent space. In this space, two modalities are enforced maximum correlation and complementarity. Second, the proposed cross-modal positive distillation preserves the complete information of multi-modal input and combines the semantic content of the source domain with the style of the target domain, thereby achieving domain-modality alignment. Finally, cross-modal debiased pseudo-labeling is devised to model the uncertainty of pseudo-labels via a self-training manner. Extensive experiments report state-of-the-art results on several domain adaptive scenarios under unsupervised and semi-supervised settings. Code is available at https://github.com/Barcaaaa/FtD-PlusPlus.


著者 Yao Wu,Mingwei Xing,Yachao Zhang,Yuan Xie,Yanyun Qu
発行日 2024-10-25 10:14:48+00:00
arxivサイト arxiv_id(pdf)

