Dense Prediction Transformer for Scale Estimation in Monocular Visual Odometry

要約

単眼式ビジュアルオドメトリは、単一カメラの画像からエージェントの位置を推定するもので、自律走行車、医療用ロボット、拡張現実感などに応用されている。しかし、単眼システムでは、2次元フレームに奥行き情報がないため、スケールアンビギュイティの問題に悩まされている。本論文では、単眼の視覚オドメトリシステムにおけるスケール推定のための密な予測変換モデルの応用を示すことで貢献する。実験の結果、このモデルによる奥行きマップの正確な推定を通じて、単眼システムのスケールドリフト問題が軽減され、視覚オドメトリベンチマークにおいて最先端の競争力を獲得することが示された。

要約(オリジナル)

Monocular visual odometry consists of the estimation of the position of an agent through images of a single camera, and it is applied in autonomous vehicles, medical robots, and augmented reality. However, monocular systems suffer from the scale ambiguity problem due to the lack of depth information in 2D frames. This paper contributes by showing an application of the dense prediction transformer model for scale estimation in monocular visual odometry systems. Experimental results show that the scale drift problem of monocular systems can be reduced through the accurate estimation of the depth map by this model, achieving competitive state-of-the-art performance on a visual odometry benchmark.

arxiv情報

著者 André O. Françani,Marcos R. O. A. Maximo
発行日 2022-10-04 16:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク