CCTNet: A Circular Convolutional Transformer Network for LiDAR-based Place Recognition Handling Movable Objects Occlusion

要約

場所認識はロボット アプリケーションの基本的なタスクであり、ロボットが同時位置特定とマッピング (SLAM) 内でループ閉鎖検出を実行し、以前のマップで再位置特定を達成できるようにします。
現在の距離画像ベースのネットワークは、単一列の畳み込みを使用して、LiDAR の視点変更による画像列のシフトに対する特徴の不変性を維持しています。ただし、これにより、「制限された受容野」や「局所領域への過剰な焦点」などの問題が発生し、パフォーマンスが低下します。
ネットワークのパフォーマンス。
前述の問題に対処するために、CCTNet と呼ばれる軽量の循環畳み込み Transformer ネットワークを提案します。これは、点群の構造情報をキャプチャし、空間情報とチャネル情報の次元間相互作用を促進することでパフォーマンスを向上させます。
最初に、Circular Convolution Module (CCM) が導入され、さまざまな LiDAR パースペクティブにわたって機能の一貫性を維持しながら、ネットワークの知覚フィールドを拡張します。
次に、チャネルと空間注意メカニズムの組み合わせを使用することにより、移動オブジェクトを含むシナリオでの場所認識精度を向上させる Range Transformer Module (RTM) が提案されます。
さらに、場所認識タスクをバイナリループ閉包分類から LiDAR フレーム間のオーバーラップに関連付けられた回帰問題に変換する、オーバーラップベースの損失関数を提案します。
KITTI および Ford Campus データセットでの広範な実験を通じて、CCTNet は同等の方法を上回り、テスト セットで Recall@1 の 0.924 および 0.965、Recall@1% の 0.990 および 0.993 を達成し、優れたパフォーマンスを示しました。
自己収集されたデータセットの結果は、可動オブジェクトを処理するための複雑なシナリオでの提案された方法の実用的な実装の可能性をさらに実証し、さまざまなデータセットでの一般化の向上を示しています。

要約(オリジナル)

Place recognition is a fundamental task for robotic application, allowing robots to perform loop closure detection within simultaneous localization and mapping (SLAM), and achieve relocalization on prior maps. Current range image-based networks use single-column convolution to maintain feature invariance to shifts in image columns caused by LiDAR viewpoint change.However, this raises the issues such as ‘restricted receptive fields’ and ‘excessive focus on local regions’, degrading the performance of networks. To address the aforementioned issues, we propose a lightweight circular convolutional Transformer network denoted as CCTNet, which boosts performance by capturing structural information in point clouds and facilitating crossdimensional interaction of spatial and channel information. Initially, a Circular Convolution Module (CCM) is introduced, expanding the network’s perceptual field while maintaining feature consistency across varying LiDAR perspectives. Then, a Range Transformer Module (RTM) is proposed, which enhances place recognition accuracy in scenarios with movable objects by employing a combination of channel and spatial attention mechanisms. Furthermore, we propose an Overlap-based loss function, transforming the place recognition task from a binary loop closure classification into a regression problem linked to the overlap between LiDAR frames. Through extensive experiments on the KITTI and Ford Campus datasets, CCTNet surpasses comparable methods, achieving Recall@1 of 0.924 and 0.965, and Recall@1% of 0.990 and 0.993 on the test set, showcasing a superior performance. Results on the selfcollected dataset further demonstrate the proposed method’s potential for practical implementation in complex scenarios to handle movable objects, showing improved generalization in various datasets.

arxiv情報

著者 Gang Wang,Chaoran Zhu,Qian Xu,Tongzhou Zhang,Hai Zhang,XiaoPeng Fan,Jue Hu
発行日 2024-05-17 14:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク