Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry

要約

近年、トランスフォーマーベースのアーキテクチャが、深層学習フレームワークにおけるシーケンス モデリングの事実上の標準になっています。
成功例に触発されて、深層視覚慣性オドメトリにおける姿勢推定のための因果的視覚慣性融合変換器 (VIFT) を提案します。
この研究は、最近の手法で見られるリカレント ニューラル ネットワーク (RNN) ベースの手法と比較して、履歴データをより効果的に活用するトランスフォーマーのアテンション メカニズムを活用することで、姿勢推定の精度を向上させることを目的としています。
通常、トランスフォーマーはトレーニング用に大規模なデータを必要とします。
この問題に対処するために、深い VIO ネットワークに誘導バイアスを利用します。
潜在的な視覚慣性特徴ベクトルには姿勢推定に不可欠な情報が含まれているため、トランスフォーマーを使用して潜在ベクトルを時間的に更新することで姿勢推定を改良します。
私たちの研究では、SE$(3)$ 群の要素に対するバックプロパゲーションで特殊な勾配を利用することにより、視覚慣性オドメトリの教師ありエンドツーエンド学習におけるデータの不均衡と回転学習手法の影響も調べています。
提案された方法はエンドツーエンドでトレーニング可能であり、推論中に必要なのは単眼カメラと IMU のみです。
実験結果は、VIFT が単眼 VIO ネットワークの精度を向上させ、KITTI データセットでの以前の方法と比較して最先端の結果を達成することを示しています。
コードは https://github.com/ybkurt/VIFT で利用可能になります。

要約(オリジナル)

In recent years, transformer-based architectures become the de facto standard for sequence modeling in deep learning frameworks. Inspired by the successful examples, we propose a causal visual-inertial fusion transformer (VIFT) for pose estimation in deep visual-inertial odometry. This study aims to improve pose estimation accuracy by leveraging the attention mechanisms in transformers, which better utilize historical data compared to the recurrent neural network (RNN) based methods seen in recent methods. Transformers typically require large-scale data for training. To address this issue, we utilize inductive biases for deep VIO networks. Since latent visual-inertial feature vectors encompass essential information for pose estimation, we employ transformers to refine pose estimates by updating latent vectors temporally. Our study also examines the impact of data imbalance and rotation learning methods in supervised end-to-end learning of visual inertial odometry by utilizing specialized gradients in backpropagation for the elements of SE$(3)$ group. The proposed method is end-to-end trainable and requires only a monocular camera and IMU during inference. Experimental results demonstrate that VIFT increases the accuracy of monocular VIO networks, achieving state-of-the-art results when compared to previous methods on the KITTI dataset. The code will be made available at https://github.com/ybkurt/VIFT.

arxiv情報

著者 Yunus Bilge Kurt,Ahmet Akman,A. Aydın Alatan
発行日 2024-09-13 12:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク