BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model

要約

ローカリゼーションは、現代のロボット工学の中核部分の1つです。
通常、古典的なローカリゼーション方法は、取得してから登録されたパラダイムに従い、驚くべき成功を達成します。
最近、エンドツーエンドのローカリゼーションアプローチの出現により、合理化されたシステムアーキテクチャや広範なMAPデータを保存する必要性の排除など、明確な利点が提供されました。
これらの方法は有望な結果を実証していますが、現在のエンドツーエンドのローカリゼーションアプローチは、堅牢性と精度の制限に依然として直面しています。
Bird’seye-View(BEV)画像は、自律運転で最も広く採用されているデータ表現の1つです。
空間構造とスケールの一貫性を維持しながら、データの複雑さを大幅に削減し、ローカリゼーションタスクの理想的な表現となっています。
ただし、BEVベースのエンドツーエンドのローカリゼーションに関する研究は、依然として不十分です。
このギャップを埋めるために、リダーのローカリゼーションを条件付きのポーズとして定式化する新しいフレームワークであるBevdifflocを提案します。
BEVの特性を活用して、最初に特定のデータ増強方法を導入して、入力データの多様性を大幅に強化します。
次に、最大機能集約モジュールと視覚変圧器を使用して、堅牢な機能を学習しながら、重要な回転ビューのバリエーションに対して堅牢性を維持します。
最後に、学習された機能を繰り返し洗練して絶対ポーズを回復する拡散モデルを組み込みます。
Oxford Radar RobotcarおよびNCLTデータセットに関する広範な実験は、Bevdifflocがベースラインメソッドよりも優れていることを示しています。
私たちのコードは、https://github.com/nubot-nudt/bevdifflocで入手できます。

要約(オリジナル)

Localization is one of the core parts of modern robotics. Classic localization methods typically follow the retrieve-then-register paradigm, achieving remarkable success. Recently, the emergence of end-to-end localization approaches has offered distinct advantages, including a streamlined system architecture and the elimination of the need to store extensive map data. Although these methods have demonstrated promising results, current end-to-end localization approaches still face limitations in robustness and accuracy. Bird’s-Eye-View (BEV) image is one of the most widely adopted data representations in autonomous driving. It significantly reduces data complexity while preserving spatial structure and scale consistency, making it an ideal representation for localization tasks. However, research on BEV-based end-to-end localization remains notably insufficient. To fill this gap, we propose BEVDiffLoc, a novel framework that formulates LiDAR localization as a conditional generation of poses. Leveraging the properties of BEV, we first introduce a specific data augmentation method to significantly enhance the diversity of input data. Then, the Maximum Feature Aggregation Module and Vision Transformer are employed to learn robust features while maintaining robustness against significant rotational view variations. Finally, we incorporate a diffusion model that iteratively refines the learned features to recover the absolute pose. Extensive experiments on the Oxford Radar RobotCar and NCLT datasets demonstrate that BEVDiffLoc outperforms the baseline methods. Our code is available at https://github.com/nubot-nudt/BEVDiffLoc.

arxiv情報

著者 Ziyue Wang,Chenghao Shi,Neng Wang,Qinghua Yu,Xieyuanli Chen,Huimin Lu
発行日 2025-03-14 13:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク