要約
ビジュアル オドメトリ (VO) は自律システムにおいて極めて重要な役割を果たしますが、主な課題はカメラ画像に奥行き情報が欠如していることです。
この論文では、深層学習の最近の進歩を利用して 2D カメラ画像を 3D セマンティック占有に変換する新しいフレームワークである OCC-VO を紹介します。これにより、エゴポーズとランドマークの位置を同時に推定する従来の必要性が回避されます。
このフレームワーク内で、TPV-Former を利用してサラウンド ビュー カメラの画像を 3D セマンティック占有に変換します。
この変換によってもたらされる課題に対処するために、セマンティック ラベル フィルター、ダイナミック オブジェクト フィルター、そして最後に一貫したグローバル セマンティック マップを維持するためにボクセル PFilter を組み込んだ姿勢推定およびマッピング アルゴリズムを特別に調整しました。
Occ3D-nuScenes の評価では、ORB-SLAM3 に対して成功率が 20.6% 向上し、軌道精度が 29.6% 向上しただけでなく、包括的なマップを構築する能力も強調されています。
私たちの実装はオープンソースであり、https://github.com/USTCLH/OCC-VO から入手できます。
要約(オリジナル)
Visual Odometry (VO) plays a pivotal role in autonomous systems, with a principal challenge being the lack of depth information in camera images. This paper introduces OCC-VO, a novel framework that capitalizes on recent advances in deep learning to transform 2D camera images into 3D semantic occupancy, thereby circumventing the traditional need for concurrent estimation of ego poses and landmark locations. Within this framework, we utilize the TPV-Former to convert surround view cameras’ images into 3D semantic occupancy. Addressing the challenges presented by this transformation, we have specifically tailored a pose estimation and mapping algorithm that incorporates Semantic Label Filter, Dynamic Object Filter, and finally, utilizes Voxel PFilter for maintaining a consistent global semantic map. Evaluations on the Occ3D-nuScenes not only showcase a 20.6% improvement in Success Ratio and a 29.6% enhancement in trajectory accuracy against ORB-SLAM3, but also emphasize our ability to construct a comprehensive map. Our implementation is open-sourced and available at: https://github.com/USTCLH/OCC-VO.
arxiv情報
著者 | Heng Li,Yifan Duan,Xinran Zhang,Haiyi Liu,Jianmin Ji,Yanyong Zhang |
発行日 | 2024-03-26 07:03:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google