AttDLNet: Attention-based DL Network for 3D LiDAR Place Recognition

要約

LiDAR ベースの場所認識は、SLAM の重要なコンポーネントの 1 つであり、自動運転車やロボット工学のアプリケーションにおけるグローバル ローカリゼーションです。
3D LiDAR から有用な情報を学習する際の DL アプローチの成功により、場所認識もこのモダリティの恩恵を受けており、特に条件が大きく変化する環境で、再位置特定とループ閉鎖検出のパフォーマンスが向上しています。
この分野の進歩にもかかわらず、3D LiDAR データから条件や方向の変化に対して不変な適切かつ効率的な記述子を抽出することは、まだ解決されていない課題です。
この問題に対処するために、この研究では、点群の範囲ベースのプロキシ表現と、積み重ねられたアテンション レイヤーを備えたアテンション ネットワークを使用して、長距離コンテキストとインター
-機能関係。
提案されたネットワークは、KITTI データセットでトレーニングおよび検証され、新しい注意ネットワークを評価するためにアブレーション研究が提示されます。
結果は、ネットワークに注意を追加するとパフォーマンスが向上し、効率的なループ クロージャーにつながり、確立された 3D LiDAR ベースの場所認識アプローチよりも優れていることが示されています。
アブレーション研究の結果は、中間のエンコーダ層が最高の平均性能を持ち、より深い層は方向の変化に対してより堅牢であることを示しています。
コードは、https://github.com/Cybonic/AttDLNet で公開されています。

要約(オリジナル)

LiDAR-based place recognition is one of the key components of SLAM and global localization in autonomous vehicles and robotics applications. With the success of DL approaches in learning useful information from 3D LiDARs, place recognition has also benefited from this modality, which has led to higher re-localization and loop-closure detection performance, particularly, in environments with significant changing conditions. Despite the progress in this field, the extraction of proper and efficient descriptors from 3D LiDAR data that are invariant to changing conditions and orientation is still an unsolved challenge. To address this problem, this work proposes a novel 3D LiDAR-based deep learning network (named AttDLNet) that uses a range-based proxy representation for point clouds and an attention network with stacked attention layers to selectively focus on long-range context and inter-feature relationships. The proposed network is trained and validated on the KITTI dataset and an ablation study is presented to assess the novel attention network. Results show that adding attention to the network improves performance, leading to efficient loop closures, and outperforming an established 3D LiDAR-based place recognition approach. From the ablation study, results indicate that the middle encoder layers have the highest mean performance, while deeper layers are more robust to orientation change. The code is publicly available at https://github.com/Cybonic/AttDLNet

arxiv情報

著者 Tiago Barros,Luís Garrote,Ricardo Pereira,Cristiano Premebida,Urbano J. Nunes
発行日 2022-08-17 10:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク