MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic Segmentation

要約

3D セマンティック セグメンテーション用のマルチモーダル教師なしドメイン アダプテーション (MM-UDA) は、高価なポイント単位のアノテーションを使用せずに自律システムにセマンティック理解を組み込むための実用的なソリューションです。
以前の MM-UDA メソッドは全体的な改善を達成できますが、クラスの不均衡なパフォーマンスが著しく問題となり、実際のアプリケーションでの採用が制限されます。
この不均衡なパフォーマンスは主に、1) 不均衡なデータによる自己トレーニング、および 2) ピクセル単位の 2D 監視信号の欠如によって引き起こされます。
この研究では、希少オブジェクトのパフォーマンスを向上させるために、マルチモーダル事前支援 (MoPA) ドメイン適応を提案します。
具体的には、自明な解決策につながる人工アーチファクトの導入を回避しながら、野生から収集した以前の希少な物体を挿入することで不均衡な監視信号を修正する有効地上ベース挿入(VGI)を開発します。
一方、SAM の一貫性損失では、SAM からの 2D の以前のセマンティック マスクをピクセル単位の監視信号として利用して、セマンティック マスク内の各オブジェクトの一貫した予測を促進します。
モーダル固有の事前学習から得られた知識は、モダリティ全体で共有され、より適切なレア オブジェクトのセグメンテーションが実現されます。
広範な実験により、私たちの方法が困難な MM-UDA ベンチマークで最先端のパフォーマンスを達成することが示されました。
コードは https://github.com/AronCao49/MoPA で入手できます。

要約(オリジナル)

Multi-modal unsupervised domain adaptation (MM-UDA) for 3D semantic segmentation is a practical solution to embed semantic understanding in autonomous systems without expensive point-wise annotations. While previous MM-UDA methods can achieve overall improvement, they suffer from significant class-imbalanced performance, restricting their adoption in real applications. This imbalanced performance is mainly caused by: 1) self-training with imbalanced data and 2) the lack of pixel-wise 2D supervision signals. In this work, we propose Multi-modal Prior Aided (MoPA) domain adaptation to improve the performance of rare objects. Specifically, we develop Valid Ground-based Insertion (VGI) to rectify the imbalance supervision signals by inserting prior rare objects collected from the wild while avoiding introducing artificial artifacts that lead to trivial solutions. Meanwhile, our SAM consistency loss leverages the 2D prior semantic masks from SAM as pixel-wise supervision signals to encourage consistent predictions for each object in the semantic mask. The knowledge learned from modal-specific prior is then shared across modalities to achieve better rare object segmentation. Extensive experiments show that our method achieves state-of-the-art performance on the challenging MM-UDA benchmark. Code will be available at https://github.com/AronCao49/MoPA.

arxiv情報

著者 Haozhi Cao,Yuecong Xu,Jianfei Yang,Pengyu Yin,Shenghai Yuan,Lihua Xie
発行日 2023-09-21 07:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク