要約
この記事では、無人地上車両向けの新しく高速かつ堅牢な LiDAR グローバル位置特定手法である BEVPlace++ を紹介します。
LiDAR データの鳥瞰図 (BEV) 画像のような表現で軽量の畳み込みニューラル ネットワーク (CNN) を使用し、場所認識とその後の 3-DoF 姿勢推定を通じて正確なグローバル位置特定を実現します。
私たちの詳細な分析により、CNN は LiDAR BEV 画像から特徴的な特徴を抽出するのに本質的に効果的であるという興味深い事実が明らかになりました。
注目すべきことに、大きな平行移動を伴う 2 つの BEV 画像のキーポイントは、CNN で抽出された特徴を使用して効果的に照合できます。
この洞察に基づいて、回転等変モジュール (REM) を設計して、回転変化に対するロバスト性を強化しながら独特の特徴を取得します。
次に、REM と記述子ジェネレーター NetVLAD をカスケード接続することにより、回転等変不変ネットワーク (REIN) が開発され、回転等変ローカル特徴と回転不変グローバル記述子が順次生成されます。
グローバル記述子は、堅牢な場所認識を実現するために最初に使用され、ローカル特徴は正確な姿勢推定に使用されます。
複数の公開データセットでの実験結果は、場所ラベルのみを使用して小規模なデータセット (KITTI の 3000 フレーム) でトレーニングした場合でも、BEVPlace++ が目に見えない環境によく一般化し、異なる日や年にわたって一貫して動作し、さまざまなタイプの LiDAR スキャナーに適応することを示しています。
。
BEVPlace++ は、場所認識、ループ クロージャ検出、グローバル ローカリゼーションなどのグローバル ローカリゼーションのサブタスクで最先端のパフォーマンスを実現します。
さらに、BEVPlace++ は軽量で、リアルタイムで実行され、正確なポーズ監視を必要としないため、導入に非常に便利です。
ソース コードは \href{https://github.com/zjuluolun/BEVPlace}{https://github.com/zjuluolun/BEVPlace} で公開されています。
要約(オリジナル)
This article introduces BEVPlace++, a novel, fast, and robust LiDAR global localization method for unmanned ground vehicles. It uses lightweight convolutional neural networks (CNNs) on Bird’s Eye View (BEV) image-like representations of LiDAR data to achieve accurate global localization through place recognition followed by 3-DoF pose estimation. Our detailed analyses reveal an interesting fact that CNNs are inherently effective at extracting distinctive features from LiDAR BEV images. Remarkably, keypoints of two BEV images with large translations can be effectively matched using CNN-extracted features. Building on this insight, we design a rotation equivariant module (REM) to obtain distinctive features while enhancing robustness to rotational changes. A Rotation Equivariant and Invariant Network (REIN) is then developed by cascading REM and a descriptor generator, NetVLAD, to sequentially generate rotation equivariant local features and rotation invariant global descriptors. The global descriptors are used first to achieve robust place recognition, and the local features are used for accurate pose estimation. Experimental results on multiple public datasets demonstrate that BEVPlace++, even when trained on a small dataset (3000 frames of KITTI) only with place labels, generalizes well to unseen environments, performs consistently across different days and years, and adapts to various types of LiDAR scanners. BEVPlace++ achieves state-of-the-art performance in subtasks of global localization including place recognition, loop closure detection, and global localization. Additionally, BEVPlace++ is lightweight, runs in real-time, and does not require accurate pose supervision, making it highly convenient for deployment. The source codes are publicly available at \href{https://github.com/zjuluolun/BEVPlace}{https://github.com/zjuluolun/BEVPlace}.
arxiv情報
著者 | Lun Luo,Siyuan Cao,Xiaorui Li,Jintao Xu,Rui Ai,Zhu Yu,Xieyuanli Chen |
発行日 | 2024-08-03 18:48:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google