RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning

要約

GPS 信号が信頼できない場合、カメラや LiDAR などの車載認識センサーを使用したグローバルな位置特定は、自動運転やロボット工学のアプリケーションにおいて非常に重要です。
ほとんどのアプローチは、連続的な場所認識 (PR) と姿勢推定 (PE) によってグローバルな位置特定を実現します。
タスクごとに個別のモデルをトレーニングする方法もあれば、デュアル ヘッドを備えた単一のモデルを使用し、個別のタスク固有の損失で共同トレーニングする方法もあります。
ただし、位置特定の精度は場所認識の成功に大きく依存しており、視点や環境の外観が大きく変化するシナリオでは失敗することがよくあります。
したがって、これにより、位置特定の最終的な姿勢推定が無効になります。
これに対処するために、PR-by-P​​E ローカリゼーションという新しいパラダイムを導入します。これは、位置推定から直接導出することで個別の場所認識の必要性を回避します。
私たちは、鳥瞰図 (BEV) 空間で動作し、視覚センサーと LiDAR センサーの両方と互換性のある、エンドツーエンドの PR-by-P​​E 位置特定ネットワークである RING# を提案します。
RING# には、BEV の特徴から 2 つの等変表現を学習する新しい設計が組み込まれており、グローバルに収束した計算効率の高い姿勢推定が可能になります。
NCLT および Oxford データセットに関する包括的な実験では、RING# が視覚モダリティと LiDAR モダリティの両方で最先端の方法より優れていることが示され、提案されたアプローチの有効性が検証されています。
コードは公開されます。

要約(オリジナル)

Global localization using onboard perception sensors, such as cameras and LiDARs, is crucial in autonomous driving and robotics applications when GPS signals are unreliable. Most approaches achieve global localization by sequential place recognition (PR) and pose estimation (PE). Some methods train separate models for each task, while others employ a single model with dual heads, trained jointly with separate task-specific losses. However, the accuracy of localization heavily depends on the success of place recognition, which often fails in scenarios with significant changes in viewpoint or environmental appearance. Consequently, this renders the final pose estimation of localization ineffective. To address this, we introduce a new paradigm, PR-by-PE localization, which bypasses the need for separate place recognition by directly deriving it from pose estimation. We propose RING#, an end-to-end PR-by-PE localization network that operates in the bird’s-eye-view (BEV) space, compatible with both vision and LiDAR sensors. RING# incorporates a novel design that learns two equivariant representations from BEV features, enabling globally convergent and computationally efficient pose estimation. Comprehensive experiments on the NCLT and Oxford datasets show that RING# outperforms state-of-the-art methods in both vision and LiDAR modalities, validating the effectiveness of the proposed approach. The code will be publicly released.

arxiv情報

著者 Sha Lu,Xuecheng Xu,Yuxuan Wu,Haojian Lu,Xieyuanli Chen,Rong Xiong,Yue Wang
発行日 2024-09-17 11:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク