Learned Fusion: 3D Object Detection using Calibration-Free Transformer Feature Fusion

要約

センサー フュージョンを使用した 3D 物体検出の最先端技術は、キャリブレーションの品質に大きく依存しており、ラボ環境の外で大規模に展開する場合にキャリブレーションの品質を維持するのは困難です。
3D オブジェクト検出のための初のキャリブレーション不要のアプローチを紹介します。
したがって、複雑でコストのかかる校正手順が不要になります。
私たちのアプローチでは、トランスフォーマーを使用して、複数の抽象化レベルで異なるセンサーの複数のビュー間で特徴をマッピングします。
物体検出の広範な評価では、私たちのアプローチが BEV mAP で単一モーダル設定を 14.1% 上回るパフォーマンスを示すだけでなく、トランスフォーマーが実際にマッピングを学習することも示しました。
センサーフュージョンにはキャリブレーションが必要ないことを示すことで、他の研究者がキャリブレーション不要のフュージョンの方向に従うよう動機づけたいと考えています。
さらに、結果として得られるアプローチは、回転や平行移動の変化に対してかなりの復元力を備えています。

要約(オリジナル)

The state of the art in 3D object detection using sensor fusion heavily relies on calibration quality, which is difficult to maintain in large scale deployment outside a lab environment. We present the first calibration-free approach for 3D object detection. Thus, eliminating the need for complex and costly calibration procedures. Our approach uses transformers to map the features between multiple views of different sensors at multiple abstraction levels. In an extensive evaluation for object detection, we not only show that our approach outperforms single modal setups by 14.1% in BEV mAP, but also that the transformer indeed learns mapping. By showing calibration is not necessary for sensor fusion, we hope to motivate other researchers following the direction of calibration-free fusion. Additionally, resulting approaches have a substantial resilience against rotation and translation changes.

arxiv情報

著者 Michael Fürst,Rahul Jakkamsetty,René Schuster,Didier Stricker
発行日 2023-12-14 16:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク