TransFusionOdom: Interpretable Transformer-based LiDAR-Inertial Fusion Odometry Estimation

要約

タイトル:TransFusionOdom:インタープリテーション可能なトランスフォーマーを用いたLiDAR-Inertial Fusionオドメトリ推定

要約:
– モバイルロボットにとって重要なモジュールであるオドメトリ推定の性能を向上させるため、複数のセンサを使った多モーダル融合が一般的に用いられている。
– しかし、異なるモダリティ間の融合をどのように行うかは、教師ありセンサ融合オドメトリ推定タスクにおいては依然として課題である。
– Element-wise和や連結などの単純な操作は、異なるモダリティを効率的に組み合わせるための適応的な注意重みを割り当てることができないため、競合力のあるオドメトリ結果を得ることが困難となる。
– 最近、Transformerアーキテクチャは、言語とビジョンの複数のタスクにおいて、特に多モーダル融合タスクに対して潜在的な可能性を示している。
– 本研究では、オドメトリ推定のために、トランスフォーマーに基づくLiDAR-Inertial融合フレームワーク(TransFusionOdom)を提案する。
– 多重注意融合モジュールは、同質または異質のモダリティに対する異なる融合アプローチを示し、モデルの複雑さを盲目的に増やすことから生じる過学習問題に対処する。
– さらに、トランスフォーマーに基づく多モーダル相互作用の学習プロセスを解釈するための一般的な視覚化手法が導入され、モダリティ間の相互作用を説明する。
– さらに、徹底的な切り離し研究により、提案された融合戦略の性能を検証するために異なる多モーダル融合戦略を評価する。
– 提案された融合戦略の汎化能力を検証するために、合成多モーダルデータセットが公開されており、異なるモダリティの組み合わせにも適用できる。
– KITTIデータセットにおける量的・質的なオドメトリ評価により、提案されたTransFusionOdomが、他の関連研究と比較して優れた性能を発揮できることが示された。

要約(オリジナル)

Multi-modal fusion of sensors is a commonly used approach to enhance the performance of odometry estimation, which is also a fundamental module for mobile robots. However, the question of \textit{how to perform fusion among different modalities in a supervised sensor fusion odometry estimation task?} is still one of challenging issues remains. Some simple operations, such as element-wise summation and concatenation, are not capable of assigning adaptive attentional weights to incorporate different modalities efficiently, which make it difficult to achieve competitive odometry results. Recently, the Transformer architecture has shown potential for multi-modal fusion tasks, particularly in the domains of vision with language. In this work, we propose an end-to-end supervised Transformer-based LiDAR-Inertial fusion framework (namely TransFusionOdom) for odometry estimation. The multi-attention fusion module demonstrates different fusion approaches for homogeneous and heterogeneous modalities to address the overfitting problem that can arise from blindly increasing the complexity of the model. Additionally, to interpret the learning process of the Transformer-based multi-modal interactions, a general visualization approach is introduced to illustrate the interactions between modalities. Moreover, exhaustive ablation studies evaluate different multi-modal fusion strategies to verify the performance of the proposed fusion strategy. A synthetic multi-modal dataset is made public to validate the generalization ability of the proposed fusion strategy, which also works for other combinations of different modalities. The quantitative and qualitative odometry evaluations on the KITTI dataset verify the proposed TransFusionOdom could achieve superior performance compared with other related works.

arxiv情報

著者 Leyuan Sun,Guanqun Ding,Yue Qiu,Yusuke Yoshiyasu,Fumio Kanehiro
発行日 2023-04-26 00:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク