要約
画像と点群は、ロボットに異なる情報を提供します。
異なるセンサーからのデータ間の対応を見つけることは、ローカリゼーション、マッピング、ナビゲーションなどのさまざまなタスクにとって非常に重要です。
学習ベースの記述子は、単一のセンサー用に開発されました。
クロスモーダル機能に関する作業はほとんどありません。
この作業では、クロスモーダル機能の学習を高密度の対照学習問題として扱います。
クロスモダリティ特徴学習のためのタプルサークル損失関数を提案します。
さらに、優れた機能を学び、一般性を失わないようにするために、ポイントクラウド用に広く使用されているPointNet++アーキテクチャと画像用のU-NetCNNアーキテクチャのバリアントを開発しました。
さらに、実際のデータセットで実験を行い、損失関数とネットワーク構造の有効性を示します。
特徴を視覚化することにより、モデルが実際に画像とLiDARの両方から情報を学習することを示します。
要約(オリジナル)
Image and Point Clouds provide different information for robots. Finding the correspondences between data from different sensors is crucial for various tasks such as localization, mapping, and navigation. Learning-based descriptors have been developed for single sensors; there is little work on cross-modal features. This work treats learning cross-modal features as a dense contrastive learning problem. We propose a Tuple-Circle loss function for cross-modality feature learning. Furthermore, to learn good features and not lose generality, we developed a variant of widely used PointNet++ architecture for point cloud and U-Net CNN architecture for images. Moreover, we conduct experiments on a real-world dataset to show the effectiveness of our loss function and network structure. We show that our models indeed learn information from both images as well as LiDAR by visualizing the features.
arxiv情報
著者 | Peng Jiang,Srikanth Saripalli |
発行日 | 2022-06-24 04:35:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google