Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D Segmentation

要約

現在の最先端の点群ベースの認識方法は、通常、大規模なラベル付きデータに依存しており、高価な手動アノテーションが必要です。
自然な選択肢は、3D 認識タスクの教師なし方法論を検討することです。
ただし、このような方法では、パフォーマンスが大幅に低下するという問題に直面することがよくあります。
幸いなことに、大量の画像ベースのデータセットが存在することがわかり、代替案、つまり 2D 画像の知識を 3D 点群に転送することが提案できることがわかりました。
具体的には、画像と点群の関係を徹底的に調査し、効果的な特徴調整戦略を設計することにより、困難なクロスモーダルおよびクロスドメイン適応タスクに対する新しいアプローチを提案します。
3D ラベルを使用しない場合、私たちの方法は、KITTI360 と GTA5 の知識を使用することにより、SemanticKITTI 上で 3D 点群セマンティック セグメンテーションの最先端のパフォーマンスを実現します。これは、既存の教師なしベースラインおよび弱く教師ありのベースラインと比較してです。

要約(オリジナル)

Current state-of-the-art point cloud-based perception methods usually rely on large-scale labeled data, which requires expensive manual annotations. A natural option is to explore the unsupervised methodology for 3D perception tasks. However, such methods often face substantial performance-drop difficulties. Fortunately, we found that there exist amounts of image-based datasets and an alternative can be proposed, i.e., transferring the knowledge in the 2D images to 3D point clouds. Specifically, we propose a novel approach for the challenging cross-modal and cross-domain adaptation task by fully exploring the relationship between images and point clouds and designing effective feature alignment strategies. Without any 3D labels, our method achieves state-of-the-art performance for 3D point cloud semantic segmentation on SemanticKITTI by using the knowledge of KITTI360 and GTA5, compared to existing unsupervised and weakly-supervised baselines.

arxiv情報

著者 Jingyu Zhang,Huitong Yang,Daijie Wu,Xuesong Li,Xinge Zhu,Yuexin Ma
発行日 2023-09-19 14:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク