TransFusionOdom: Interpretable Transformer-based LiDAR-Inertial Fusion Odometry Estimation

要約

タイトル:TransFusionOdom:解釈可能なトランスフォーマーに基づくLiDAR-Inertial Fusionオドメトリ推定

要約:

– センサーのマルチモーダル融合は、モバイルロボットの基本モジュールであるオドメトリ推定の性能向上によく使われるアプローチの1つである。
– しかしながら、「監視されたセンサーフュージョンのオドメトリ推定タスクにおいて、異なるモダリティ間の融合をどのように実行するか?」という質問は、依然として解決が困難な問題の1つである。
– 要素ごとの和や連結などのいくつかの単純な操作は、適応的な注目重みを割り当ててさまざまなモダリティを効率的に統合することができず、競争力のあるオドメトリ結果を得ることが困難になる。
– 最近、トランスフォーマー構造は、言語を伴うビジョンの領域において特にマルチモーダル融合タスクの可能性を示している。
– 本研究では、LiDAR-Inertial融合フレームワークであるエンドツーエンドの監視されたトランスフォーマーベースの運動学推定モデル「TransFusionOdom」を提案する。
– マルチアテンション融合モジュールは、モデルの複雑さを盲目的に増やすことから生じる過学習問題に対処するために、同種・異種モダリティに対する異なる融合アプローチを示す。
– さらに、トランスフォーマーベースのマルチモーダル相互作用の学習プロセスを解釈するために、一般的な可視化アプローチを導入してモダリティ間の相互作用を説明する。
– また、徹底した畳み込み研究により、提案された融合戦略の性能を検証するために、合成マルチモーダルデータセットが公開される。
– KITTIデータセットでの定量的・定性的オドメトリ評価により、提案されたTransFusionOdomは、他の関連作品と比較して優れたパフォーマンスが得られることが確認された。

要約(オリジナル)

Multi-modal fusion of sensors is a commonly used approach to enhance the performance of odometry estimation, which is also a fundamental module for mobile robots. However, the question of \textit{how to perform fusion among different modalities in a supervised sensor fusion odometry estimation task?} is still one of challenging issues remains. Some simple operations, such as element-wise summation and concatenation, are not capable of assigning adaptive attentional weights to incorporate different modalities efficiently, which make it difficult to achieve competitive odometry results. Recently, the Transformer architecture has shown potential for multi-modal fusion tasks, particularly in the domains of vision with language. In this work, we propose an end-to-end supervised Transformer-based LiDAR-Inertial fusion framework (namely TransFusionOdom) for odometry estimation. The multi-attention fusion module demonstrates different fusion approaches for homogeneous and heterogeneous modalities to address the overfitting problem that can arise from blindly increasing the complexity of the model. Additionally, to interpret the learning process of the Transformer-based multi-modal interactions, a general visualization approach is introduced to illustrate the interactions between modalities. Moreover, exhaustive ablation studies evaluate different multi-modal fusion strategies to verify the performance of the proposed fusion strategy. A synthetic multi-modal dataset is made public to validate the generalization ability of the proposed fusion strategy, which also works for other combinations of different modalities. The quantitative and qualitative odometry evaluations on the KITTI dataset verify the proposed TransFusionOdom could achieve superior performance compared with other related works.

arxiv情報

著者 Leyuan Sun,Guanqun Ding,Yue Qiu,Yusuke Yoshiyasu,Fumio Kanehiro
発行日 2023-04-16 08:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク