Learned Fusion: 3D Object Detection using Calibration-Free Transformer Feature Fusion


センサー フュージョンを使用した 3D 物体検出の最先端技術は、キャリブレーションの品質に大きく依存しており、ラボ環境の外で大規模に展開する場合にキャリブレーションの品質を維持するのは困難です。
3D オブジェクト検出のための初のキャリブレーション不要のアプローチを紹介します。
物体検出の広範な評価では、私たちのアプローチが BEV mAP で単一モーダル設定を 14.1% 上回るパフォーマンスを示すだけでなく、トランスフォーマーが実際にマッピングを学習することも示しました。


The state of the art in 3D object detection using sensor fusion heavily relies on calibration quality, which is difficult to maintain in large scale deployment outside a lab environment. We present the first calibration-free approach for 3D object detection. Thus, eliminating the need for complex and costly calibration procedures. Our approach uses transformers to map the features between multiple views of different sensors at multiple abstraction levels. In an extensive evaluation for object detection, we not only show that our approach outperforms single modal setups by 14.1% in BEV mAP, but also that the transformer indeed learns mapping. By showing calibration is not necessary for sensor fusion, we hope to motivate other researchers following the direction of calibration-free fusion. Additionally, resulting approaches have a substantial resilience against rotation and translation changes.


著者 Michael Fürst,Rahul Jakkamsetty,René Schuster,Didier Stricker
発行日 2023-12-14 16:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク