トランスフォーマーベースのアーキテクチャは、自然言語処理や、画像やビデオの理解などのコンピューター ビジョン タスクにおいて最先端の分野を支配してきました。
この研究では、カメラの姿勢の 6 自由度を推定するビデオ理解タスクとして単眼視覚オドメトリを扱います。
私たちは、クリップから特徴を抽出し、エンドツーエンドの方法で動きを推定するための、時空間的自己注意メカニズムに基づいた TSformer-VO モデルを提示することで貢献します。
私たちのアプローチは、KITTI ビジュアル オドメトリ データセット上でジオメトリ ベースおよびディープ ラーニング ベースの方法と比較して、競争力のある最先端のパフォーマンスを達成し、ビジュアル オドメトリ コミュニティで広く受け入れられている DeepVO 実装を上回りました。
コードは https://github.com/aofrancani/TSformer-VO で公開されています。
Estimating the camera’s pose given images from a single camera is a traditional task in mobile robots and autonomous vehicles. This problem is called monocular visual odometry and often relies on geometric approaches that require considerable engineering effort for a specific scenario. Deep learning methods have been shown to be generalizable after proper training and with a large amount of available data. Transformer-based architectures have dominated the state-of-the-art in natural language processing and computer vision tasks, such as image and video understanding. In this work, we deal with the monocular visual odometry as a video understanding task to estimate the 6 degrees of freedom of a camera’s pose. We contribute by presenting the TSformer-VO model based on spatio-temporal self-attention mechanisms to extract features from clips and estimate the motions in an end-to-end manner. Our approach achieved competitive state-of-the-art performance compared with geometry-based and deep learning-based methods on the KITTI visual odometry dataset, outperforming the DeepVO implementation highly accepted in the visual odometry community. The code is publicly available at https://github.com/aofrancani/TSformer-VO.
著者 | André O. Françani,Marcos R. O. A. Maximo |
発行日 | 2025-01-20 19:22:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google