要約
現在、点群登録方法の大部分は、点からのフィーチャの抽出に依存しています。
ただし、これらの方法は、単一の点モダリティから得られる情報に依存するため限界があり、全体的な特徴の不適切な認識やテクスチャ情報の欠如などの欠陥が生じる可能性があります。
実際、人間は 2D 画像から学習した視覚情報を利用して 3D 世界を理解できます。
この事実に基づいて、我々は、クロスモーダル情報を通じてグローバルな形状認識を取得し、正確かつ堅牢な点群登録を実現する、新しいクロスモーダル情報誘導ネットワーク (CMIGNet) を提案します。
具体的には、まず点群から投影された画像を組み込み、アテンション メカニズムを使用してクロスモーダル特徴を融合します。
さらに、我々は 2 つの対比学習戦略、つまりオーバーラップ対比学習とクロスモーダル対比学習を採用します。
前者は重複領域の特徴に焦点を当て、後者は 2D 特徴と 3D 特徴の間の対応を強調します。
最後に、点群内のキーポイントを特定するマスク予測モジュールを提案します。
いくつかのベンチマーク データセットに対する広範な実験により、当社のネットワークが優れた登録パフォーマンスを達成していることが実証されました。
要約(オリジナル)
The majority of point cloud registration methods currently rely on extracting features from points. However, these methods are limited by their dependence on information obtained from a single modality of points, which can result in deficiencies such as inadequate perception of global features and a lack of texture information. Actually, humans can employ visual information learned from 2D images to comprehend the 3D world. Based on this fact, we present a novel Cross-Modal Information-Guided Network (CMIGNet), which obtains global shape perception through cross-modal information to achieve precise and robust point cloud registration. Specifically, we first incorporate the projected images from the point clouds and fuse the cross-modal features using the attention mechanism. Furthermore, we employ two contrastive learning strategies, namely overlapping contrastive learning and cross-modal contrastive learning. The former focuses on features in overlapping regions, while the latter emphasizes the correspondences between 2D and 3D features. Finally, we propose a mask prediction module to identify keypoints in the point clouds. Extensive experiments on several benchmark datasets demonstrate that our network achieves superior registration performance.
arxiv情報
著者 | Yifan Xie,Jihua Zhu,Shiqi Li,Pengcheng Shi |
発行日 | 2023-11-02 12:56:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google