Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D Segmentation


自然な選択肢は、3D 認識タスクの教師なし方法論を検討することです。
幸いなことに、大量の画像ベースのデータセットが存在することがわかり、代替案、つまり 2D 画像の知識を 3D 点群に転送することが提案できることがわかりました。
3D ラベルを使用しない場合、私たちの方法は、KITTI360 と GTA5 の知識を使用することにより、SemanticKITTI 上で 3D 点群セマンティック セグメンテーションの最先端のパフォーマンスを実現します。これは、既存の教師なしベースラインおよび弱く教師ありのベースラインと比較してです。


Current state-of-the-art point cloud-based perception methods usually rely on large-scale labeled data, which requires expensive manual annotations. A natural option is to explore the unsupervised methodology for 3D perception tasks. However, such methods often face substantial performance-drop difficulties. Fortunately, we found that there exist amounts of image-based datasets and an alternative can be proposed, i.e., transferring the knowledge in the 2D images to 3D point clouds. Specifically, we propose a novel approach for the challenging cross-modal and cross-domain adaptation task by fully exploring the relationship between images and point clouds and designing effective feature alignment strategies. Without any 3D labels, our method achieves state-of-the-art performance for 3D point cloud semantic segmentation on SemanticKITTI by using the knowledge of KITTI360 and GTA5, compared to existing unsupervised and weakly-supervised baselines.


著者 Jingyu Zhang,Huitong Yang,Daijie Wu,Xuesong Li,Xinge Zhu,Yuexin Ma
発行日 2023-09-19 14:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク