AFT-VO: Asynchronous Fusion Transformers for Multi-View Visual Odometry Estimation

要約

モーション推定アプローチでは、通常、カルマン フィルターなどのセンサー フュージョン手法を使用して、個々のセンサーの障害を処理します。
最近では、深層学習ベースの融合アプローチが提案されており、パフォーマンスが向上し、モデル固有の実装が少なくて済みます。
ただし、現在のディープ フュージョンのアプローチでは、多くの場合、センサーが同期していることを前提としています。これは、特に低コストのハードウェアでは必ずしも実用的ではありません。
この制限に対処するために、この作業では、複数のセンサーからVOを推定するための新しいトランスベースのセンサーフュージョンアーキテクチャであるAFT-VOを提案します。
私たちのフレームワークは、非同期マルチビュー カメラからの予測を組み合わせて、さまざまなソースからの測定値の時間の不一致を説明します。
私たちのアプローチでは、最初に Mixture Density Network (MDN) を使用して、システム内のすべてのカメラの 6-DoF ポーズの確率分布を推定します。
次に、新しい変圧器ベースの融合モジュールである AFT-VO が導入され、これらの非同期姿勢推定とその信頼度が組み合わされます。
より具体的には、マルチソース非同期信号の融合を可能にする Discretiser および Source Encoding 技術を紹介します。
人気のある nuScenes と KITTI データセットでアプローチを評価します。
私たちの実験は、VO推定のためのマルチビューフュージョンが堅牢で正確な軌跡を提供し、困難な天候と照明条件の両方で最先端技術を上回ることを示しています。

要約(オリジナル)

Motion estimation approaches typically employ sensor fusion techniques, such as the Kalman Filter, to handle individual sensor failures. More recently, deep learning-based fusion approaches have been proposed, increasing the performance and requiring less model-specific implementations. However, current deep fusion approaches often assume that sensors are synchronised, which is not always practical, especially for low-cost hardware. To address this limitation, in this work, we propose AFT-VO, a novel transformer-based sensor fusion architecture to estimate VO from multiple sensors. Our framework combines predictions from asynchronous multi-view cameras and accounts for the time discrepancies of measurements coming from different sources. Our approach first employs a Mixture Density Network (MDN) to estimate the probability distributions of the 6-DoF poses for every camera in the system. Then a novel transformer-based fusion module, AFT-VO, is introduced, which combines these asynchronous pose estimations, along with their confidences. More specifically, we introduce Discretiser and Source Encoding techniques which enable the fusion of multi-source asynchronous signals. We evaluate our approach on the popular nuScenes and KITTI datasets. Our experiments demonstrate that multi-view fusion for VO estimation provides robust and accurate trajectories, outperforming the state of the art in both challenging weather and lighting conditions.

arxiv情報

著者 Nimet Kaygusuz,Oscar Mendez,Richard Bowden
発行日 2022-09-16 13:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク