SALSA: Swift Adaptive Lightweight Self-Attention for Enhanced LiDAR Place Recognition

要約

大規模な LiDAR マッピングと位置特定では、場所認識技術を利用してオドメトリのドリフトを軽減し、正確なマッピングを保証します。
これらの技術は、LiDAR 点群からのシーン表現を利用して、データベース内で以前に訪問したサイトを識別します。
点群内の各点に割り当てられたローカル記述子が集約されて、点群のシーン表現が形成されます。
これらの記述子は、幾何学的適合性スコアに基づいて、取得された点群を再ランク付けするためにも使用されます。
私たちは、LiDAR による場所認識のための、新しく軽量かつ効率的なフレームワークである SALSA を提案します。
これは、放射状ウィンドウ アテンションを使用して疎遠な点の情報集約を可能にする Sphereformer バックボーン、ローカル記述子をトークンにプールする適応型セルフ アテンション レイヤー、トークンを集約してシーンを生成する多層パーセプトロン ミキサー レイヤーで構成されます。
ディスクリプタ。
提案されたフレームワークは、リアルタイムで動作しながら、取得とメトリック位置特定の両方の点で、さまざまな LiDAR 場所認識データセットに対する既存の方法よりも優れています。

要約(オリジナル)

Large-scale LiDAR mappings and localization leverage place recognition techniques to mitigate odometry drifts, ensuring accurate mapping. These techniques utilize scene representations from LiDAR point clouds to identify previously visited sites within a database. Local descriptors, assigned to each point within a point cloud, are aggregated to form a scene representation for the point cloud. These descriptors are also used to re-rank the retrieved point clouds based on geometric fitness scores. We propose SALSA, a novel, lightweight, and efficient framework for LiDAR place recognition. It consists of a Sphereformer backbone that uses radial window attention to enable information aggregation for sparse distant points, an adaptive self-attention layer to pool local descriptors into tokens, and a multi-layer-perceptron Mixer layer for aggregating the tokens to generate a scene descriptor. The proposed framework outperforms existing methods on various LiDAR place recognition datasets in terms of both retrieval and metric localization while operating in real-time.

arxiv情報

著者 Raktim Gautam Goswami,Naman Patel,Prashanth Krishnamurthy,Farshad Khorrami
発行日 2024-07-11 08:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク