要約
場所認識は、長期的な SLAM システムにとって重要なモジュールです。
現在の LiDAR ベースの場所認識方法では、通常、順序付けられていない点や距離画像などの点群の表現が使用されます。
これらの方法は高い検索再現率を達成しますが、ビューの変化やシーンの変化の場合にはパフォーマンスが低下する可能性があります。
この研究では、場所認識における異なる表現、つまり鳥瞰図 (BEV) 画像の可能性を探ります。
BEV 画像の構造内容は、点群の回転や平行移動による影響が少ないことがわかります。
繊細な設計を必要とせず、BEV 画像でトレーニングされたシンプルな VGGNet が、わずかな視点変更のシーンで最先端の場所認識手法と同等のパフォーマンスを達成できることを検証します。
より堅牢な場所認識のために、BEVPlace と呼ばれる回転不変ネットワークを設計します。
グループ畳み込みを使用して画像から回転等価のローカル特徴を抽出し、グローバル特徴の集約には NetVLAD を使用します。
さらに、BEV フィーチャ間の距離が点群のジオメトリ距離と相関していることが観察されます。
この観察に基づいて、クエリ クラウドの位置を推定する方法を開発し、場所認識の使用を拡張します。
大規模な公開データセットに対して行われた実験では、私たちの方法が 1) 再現率の点で最先端のパフォーマンスを達成していること、2) 変化を確認するのに堅牢であること、3) 強力な一般化能力を示していること、4) 推定できることを示しています。
クエリ点群の位置。
ソース コードは https://github.com/zjuluolun/BEVPlace で公開されています。
要約(オリジナル)
Place recognition is a key module for long-term SLAM systems. Current LiDAR-based place recognition methods usually use representations of point clouds such as unordered points or range images. These methods achieve high recall rates of retrieval, but their performance may degrade in the case of view variation or scene changes. In this work, we explore the potential of a different representation in place recognition, i.e. bird’s eye view (BEV) images. We observe that the structural contents of BEV images are less influenced by rotations and translations of point clouds. We validate that, without any delicate design, a simple VGGNet trained on BEV images achieves comparable performance with the state-of-the-art place recognition methods in scenes of slight viewpoint changes. For more robust place recognition, we design a rotation-invariant network called BEVPlace. We use group convolution to extract rotation-equivariant local features from the images and NetVLAD for global feature aggregation. In addition, we observe that the distance between BEV features is correlated with the geometry distance of point clouds. Based on the observation, we develop a method to estimate the position of the query cloud, extending the usage of place recognition. The experiments conducted on large-scale public datasets show that our method 1) achieves state-of-the-art performance in terms of recall rates, 2) is robust to view changes, 3) shows strong generalization ability, and 4) can estimate the positions of query point clouds. Source codes are publicly available at https://github.com/zjuluolun/BEVPlace.
arxiv情報
著者 | Lun Luo,Shuhang Zheng,Yixuan Li,Yongzhi Fan,Beinan Yu,Siyuan Cao,Huiliang Shen |
発行日 | 2023-08-15 03:44:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google