AttDLNet: Attention-based DL Network for 3D LiDAR Place Recognition

要約

LiDARを用いた場所認識は、自律走行車やロボットアプリケーションにおけるSLAMやグローバルローカライゼーションの重要なコンポーネントの一つである。3次元LiDARから有用な情報を学習するDLアプローチの成功により、場所認識もこのモダリティの恩恵を受けており、特に、状況が大きく変化する環境において、高い再局在化およびループ閉鎖検出性能に繋がっています。この分野の進歩にもかかわらず、3D LiDARデータから条件や方向の変化に対して不変な適切かつ効率的な記述子を抽出することは、未だ未解決の課題である。この問題に対処するため、本研究では、点群に対するレンジベースの代理表現と、長距離のコンテキストと特徴間の関係に選択的にフォーカスするための積層型アテンションネットワークを用いた、新しい3D LiDARベースの深層学習ネットワーク(AttDLNetと命名)を提案する。提案ネットワークをKITTIデータセットで学習・検証し、新規注意ネットワークを評価するためのアブレーション研究を提示する。その結果、ネットワークに注意を加えることで性能が向上し、効率的にループを閉じることができ、既存の3D LiDARベースの場所認識アプローチを凌駕することが示された。アブレーション研究の結果、中間のエンコーダー層が最も高い平均性能を持ち、深い層は方位変化に対してより頑健であることが示された。コードは、https://github.com/Cybonic/AttDLNet で公開されています。

要約(オリジナル)

LiDAR-based place recognition is one of the key components of SLAM and global localization in autonomous vehicles and robotics applications. With the success of DL approaches in learning useful information from 3D LiDARs, place recognition has also benefited from this modality, which has led to higher re-localization and loop-closure detection performance, particularly, in environments with significant changing conditions. Despite the progress in this field, the extraction of proper and efficient descriptors from 3D LiDAR data that are invariant to changing conditions and orientation is still an unsolved challenge. To address this problem, this work proposes a novel 3D LiDAR-based deep learning network (named AttDLNet) that uses a range-based proxy representation for point clouds and an attention network with stacked attention layers to selectively focus on long-range context and inter-feature relationships. The proposed network is trained and validated on the KITTI dataset and an ablation study is presented to assess the novel attention network. Results show that adding attention to the network improves performance, leading to efficient loop closures, and outperforming an established 3D LiDAR-based place recognition approach. From the ablation study, results indicate that the middle encoder layers have the highest mean performance, while deeper layers are more robust to orientation change. The code is publicly available at https://github.com/Cybonic/AttDLNet

arxiv情報

著者 Tiago Barros,Luís Garrote,Ricardo Pereira,Cristiano Premebida,Urbano J. Nunes
発行日 2023-01-04 12:21:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク