Online,Target-Free LiDAR-Camera Extrinsic Calibration via Cross-Modal Mask Matching

要約

LiDAR カメラ外部キャリブレーション (LCEC) は、インテリジェント車両のデータ融合にとって重要です。
この分野では、オフラインのターゲットベースのアプローチが長い間好まれてきました。
ただし、現実世界の環境への適応性が低いことがよくあります。
これは主に、中程度の衝撃や振動のある環境での長時間の動作中に外部パラメータが大きく変化する可能性があるためです。
対照的に、オンラインのターゲットフリーのアプローチは適応性が高くなりますが、主にクロスモーダル特徴マッチングにおける課題により、一般に堅牢性に欠けます。
したがって、この記事では、コンピューター ビジョンとロボット工学、特に身体型人工知能の分野で重要なトレンドとして台頭しているラージ ビジョン モデル (LVM) の可能性を最大限に引き出し、堅牢かつ正確なオンライン目標を達成します。
さまざまな困難なシナリオに対応する無料の LCEC。
私たちの主な貢献は 3 つあります。MIAS-LCEC として知られる新しいフレームワークを導入し、インタラクティブな視覚化インターフェイスを備えたオープンソースの多用途キャリブレーション ツールボックスを提供し、屋内および屋外のさまざまな環境からキャプチャされた 3 つの現実世界のデータセットを公開しています。
私たちのフレームワークとツールボックスの基礎となるのは、最先端の (SoTA) LVM に基づいて開発され、十分かつ信頼性の高いマッチングを生成できるクロスモーダル マスク マッチング (C3M) アルゴリズムです。
これらの実世界のデータセットに対して行われた広範な実験により、特に超広視野のソリッドステート LiDAR に関して、私たちのアプローチの堅牢性と SoTA 手法と比較した優れたパフォーマンスが実証されました。

要約(オリジナル)

LiDAR-camera extrinsic calibration (LCEC) is crucial for data fusion in intelligent vehicles. Offline, target-based approaches have long been the preferred choice in this field. However, they often demonstrate poor adaptability to real-world environments. This is largely because extrinsic parameters may change significantly due to moderate shocks or during extended operations in environments with vibrations. In contrast, online, target-free approaches provide greater adaptability yet typically lack robustness, primarily due to the challenges in cross-modal feature matching. Therefore, in this article, we unleash the full potential of large vision models (LVMs), which are emerging as a significant trend in the fields of computer vision and robotics, especially for embodied artificial intelligence, to achieve robust and accurate online, target-free LCEC across a variety of challenging scenarios. Our main contributions are threefold: we introduce a novel framework known as MIAS-LCEC, provide an open-source versatile calibration toolbox with an interactive visualization interface, and publish three real-world datasets captured from various indoor and outdoor environments. The cornerstone of our framework and toolbox is the cross-modal mask matching (C3M) algorithm, developed based on a state-of-the-art (SoTA) LVM and capable of generating sufficient and reliable matches. Extensive experiments conducted on these real-world datasets demonstrate the robustness of our approach and its superior performance compared to SoTA methods, particularly for the solid-state LiDARs with super-wide fields of view.

arxiv情報

著者 Zhiwei Huang,Yikang Zhang,Qijun Chen,Rui Fan
発行日 2024-06-20 03:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク