BEV-ODOM: Reducing Scale Drift in Monocular Visual Odometry with BEV Representation

要約

単眼ビジュアル オドメトリ (MVO) は自律ナビゲーションやロボット工学に不可欠であり、費用対効果が高く柔軟なモーション トラッキング ソリューションを提供しますが、単眼セットアップに固有のスケールの曖昧さにより、時間の経過とともに累積誤差が生じることがよくあります。
このペーパーでは、スケール ドリフトに対処するために鳥瞰図 (BEV) 表現を活用する新しい MVO フレームワークである BEV-ODOM を紹介します。
既存のアプローチとは異なり、BEV-ODOM は、深度ベースのパースペクティブ ビュー (PV) から BEV エンコーダー、相関特徴抽出ネック、および CNN-MLP ベースのデコーダーを統合しており、必要なく 3 自由度にわたる動きを推定できます。
深さの監視や複雑な最適化テクニックに最適です。
私たちのフレームワークは、長期シーケンスにおけるスケール ドリフトを軽減し、NCLT、Oxford、KITTI を含むさまざまなデータセットにわたって正確な動き推定を実現します。
結果は、BEV-ODOM が現在の MVO 手法よりも優れたパフォーマンスを示し、スケール ドリフトが減少し、精度が高いことを示しています。

要約(オリジナル)

Monocular visual odometry (MVO) is vital in autonomous navigation and robotics, providing a cost-effective and flexible motion tracking solution, but the inherent scale ambiguity in monocular setups often leads to cumulative errors over time. In this paper, we present BEV-ODOM, a novel MVO framework leveraging the Bird’s Eye View (BEV) Representation to address scale drift. Unlike existing approaches, BEV-ODOM integrates a depth-based perspective-view (PV) to BEV encoder, a correlation feature extraction neck, and a CNN-MLP-based decoder, enabling it to estimate motion across three degrees of freedom without the need for depth supervision or complex optimization techniques. Our framework reduces scale drift in long-term sequences and achieves accurate motion estimation across various datasets, including NCLT, Oxford, and KITTI. The results indicate that BEV-ODOM outperforms current MVO methods, demonstrating reduced scale drift and higher accuracy.

arxiv情報

著者 Yufei Wei,Sha Lu,Fuzhang Han,Rong Xiong,Yue Wang
発行日 2024-11-15 13:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク