Transformer-based model for monocular visual odometry: a video understanding approach

要約

単一カメラの画像からカメラの姿勢を推定することは、移動ロボットや自動運転車における伝統的なタスクです。
この問題は単眼視覚オドメトリと呼ばれ、多くの場合、特定のシナリオに対して多大なエンジニアリング労力を必要とする幾何学的アプローチに依存します。
深層学習手法は、適切なトレーニングと大量の利用可能なデータの後に一般化可能であることが示されています。
トランスフォーマーベースのアーキテクチャは、自然言語処理や、画像やビデオの理解などのコンピューター ビジョン タスクにおいて最先端の分野を支配してきました。
この研究では、6-DoF カメラの姿勢を推定するためのビデオ理解タスクとして単眼視覚オドメトリを扱います。
私たちは、クリップから特徴を抽出し、エンドツーエンドの方法で動きを推定するための、時空間的自己注意メカニズムに基づいた TSformer-VO モデルを提示することで貢献します。
私たちのアプローチは、KITTI ビジュアル オドメトリ データセット上でジオメトリ ベースおよびディープ ラーニング ベースの方法と比較して、競争力のある最先端のパフォーマンスを達成し、ビジュアル オドメトリ コミュニティで広く受け入れられている DeepVO 実装を上回りました。

要約(オリジナル)

Estimating the camera’s pose given images of a single camera is a traditional task in mobile robots and autonomous vehicles. This problem is called monocular visual odometry and it often relies on geometric approaches that require considerable engineering effort for a specific scenario. Deep learning methods have shown to be generalizable after proper training and a large amount of available data. Transformer-based architectures have dominated the state-of-the-art in natural language processing and computer vision tasks, such as image and video understanding. In this work, we deal with the monocular visual odometry as a video understanding task to estimate the 6-DoF camera’s pose. We contribute by presenting the TSformer-VO model based on spatio-temporal self-attention mechanisms to extract features from clips and estimate the motions in an end-to-end manner. Our approach achieved competitive state-of-the-art performance compared with geometry-based and deep learning-based methods on the KITTI visual odometry dataset, outperforming the DeepVO implementation highly accepted in the visual odometry community.

arxiv情報

著者 André O. Françani,Marcos R. O. A. Maximo
発行日 2023-09-12 19:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T45, cs.AI, cs.CV, cs.RO パーマリンク