CalibFormer: A Transformer-based Automatic LiDAR-Camera Calibration Network

要約

LiDAR とカメラの融合は、認識タスクのための自動運転にますます採用されています。
このような融合ベースのアルゴリズムのパフォーマンスは、センサーのキャリブレーションの精度に大きく依存しますが、異なるデータ モダリティ間で共通の特徴を特定するのが難しいため、これは困難です。
以前は、多くのキャリブレーション方法には特定のターゲットや手動介入が含まれており、煩雑でコストがかかることがわかっていました。
学習ベースのオンライン校正方法が提案されていますが、ほとんどの場合、そのパフォーマンスはほとんど満足のいくものではありません。
これらの方法は通常、まばらな特徴マップ、信頼性の低いクロスモダリティ関連、不正確な校正パラメータ回帰などの問題に悩まされます。この論文では、これらの問題に対処するために、自動 LiDAR カメラ用のエンドツーエンド ネットワークである CalibFormer を提案します。
較正。
複数のレイヤーのカメラと LiDAR 画像機能を集約して、高解像度の表現を実現します。
マルチヘッド相関モジュールを利用して、特徴間の相関をより正確に特定します。
最後に、変換器アーキテクチャを採用して、相関情報から正確な校正パラメータを推定します。
私たちの手法は、KITTI データセット上で平均平行移動誤差 $0.8751 \mathrm{cm}$ と平均回転誤差 $0.0562 ^{\circ}$ を達成し、既存の最先端の手法を上回り、強力な堅牢性、精度、
そして汎化能力。

要約(オリジナル)

The fusion of LiDARs and cameras has been increasingly adopted in autonomous driving for perception tasks. The performance of such fusion-based algorithms largely depends on the accuracy of sensor calibration, which is challenging due to the difficulty of identifying common features across different data modalities. Previously, many calibration methods involved specific targets and/or manual intervention, which has proven to be cumbersome and costly. Learning-based online calibration methods have been proposed, but their performance is barely satisfactory in most cases. These methods usually suffer from issues such as sparse feature maps, unreliable cross-modality association, inaccurate calibration parameter regression, etc. In this paper, to address these issues, we propose CalibFormer, an end-to-end network for automatic LiDAR-camera calibration. We aggregate multiple layers of camera and LiDAR image features to achieve high-resolution representations. A multi-head correlation module is utilized to identify correlations between features more accurately. Lastly, we employ transformer architectures to estimate accurate calibration parameters from the correlation information. Our method achieved a mean translation error of $0.8751 \mathrm{cm}$ and a mean rotation error of $0.0562 ^{\circ}$ on the KITTI dataset, surpassing existing state-of-the-art methods and demonstrating strong robustness, accuracy, and generalization capabilities.

arxiv情報

著者 Yuxuan Xiao,Yao Li,Chengzhen Meng,Xingchen Li,Yanyong Zhang
発行日 2023-11-26 08:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク