Cross-modal Learning for Domain Adaptation in 3D Semantic Segmentation

要約

ドメインの適応は、ラベルが不足しているときに学習できるようにするための重要なタスクです。
ほとんどの作品は画像モダリティにのみ焦点を当てていますが、多くの重要なマルチモーダルデータセットがあります。
ドメイン適応のためにマルチモダリティを活用するために、相互模倣を介して2つのモダリティの予測間の一貫性を強制するクロスモーダル学習を提案します。
ラベル付きデータで正しい予測を行い、ラベルなしターゲットドメインデータでモダリティ全体で一貫した予測を行うようにネットワークを制約します。
教師なしおよび半教師ありドメイン適応設定での実験は、この新しいドメイン適応戦略の有効性を証明します。
具体的には、2D画像、3D点群、またはその両方からの3Dセマンティックセグメンテーションのタスクを評価します。
最近の運転データセットを活用して、シーンレイアウト、照明、センサーセットアップ、天気の変更、合成から実際へのセットアップなど、さまざまなドメイン適応シナリオを作成します。
私たちの方法は、すべての適応シナリオで以前のユニモーダル適応ベースラインを大幅に改善します。
私たちのコードはhttps://github.com/valeoai/xmuda_journalで公開されています

要約(オリジナル)

Domain adaptation is an important task to enable learning when labels are scarce. While most works focus only on the image modality, there are many important multi-modal datasets. In order to leverage multi-modality for domain adaptation, we propose cross-modal learning, where we enforce consistency between the predictions of two modalities via mutual mimicking. We constrain our network to make correct predictions on labeled data and consistent predictions across modalities on unlabeled target-domain data. Experiments in unsupervised and semi-supervised domain adaptation settings prove the effectiveness of this novel domain adaptation strategy. Specifically, we evaluate on the task of 3D semantic segmentation from either the 2D image, the 3D point cloud or from both. We leverage recent driving datasets to produce a wide variety of domain adaptation scenarios including changes in scene layout, lighting, sensor setup and weather, as well as the synthetic-to-real setup. Our method significantly improves over previous uni-modal adaptation baselines on all adaption scenarios. Our code is publicly available at https://github.com/valeoai/xmuda_journal

arxiv情報

著者 Maximilian Jaritz,Tuan-Hung Vu,Raoul de Charette,Émilie Wirbel,Patrick Pérez
発行日 2022-06-22 12:19:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク