PAPI-Reg: Patch-to-Pixel Solution for Efficient Cross-Modal Registration between LiDAR Point Cloud and Camera Image

要約

クロスモーダルデータ融合の主な要件は、異なるセンサーからのデータの正確なアラインメントです。
ただし、LIDARポイントクラウドとカメラ画像の間のキャリブレーションは通常、時間がかかり、外部キャリブレーションボードまたは特定の環境機能が必要です。
クロスモーダル登録は、外部キャリブレーションを必要とせずにデータを直接整列させることにより、この問題を効果的に解決します。
ただし、ポイントクラウドと画像間のドメインギャップにより、既存のメソッドはリアルタイムのパフォーマンスを維持しながら満足のいく登録の精度をめったに実現しません。
この問題に対処するために、カメラ画像と一致するためのいくつかの2D表現にポイントクラウドを投影するフレームワークを提案します。これは、ライダーポイントクラウドの幾何学的特性をより効果的に活用するだけでなく、ポイントクラウドと画像の間のドメインギャップを橋渡しします。
さらに、画像マッチングタスクのLidarポイントクラウドと画像の間のクロスモーダルの違いと限られたオーバーラップに取り組むために、マルチスケールの特徴抽出ネットワークを導入して、カメラ画像とLidar Pointクラウドの投影マップの両方から機能を効果的に抽出します。
さらに、パッチ間マッチングネットワークを提案して、より効果的な監督を提供し、より高い精度を達成します。
KittiおよびNuscenesデータセットの実験を通じて、モデルのパフォーマンスを検証します。
当社のネットワークは、リアルタイムのパフォーマンスと非常に高い登録精度を達成します。
Kittiデータセットでは、モデルは99%を超える登録精度率を達成します。

要約(オリジナル)

The primary requirement for cross-modal data fusion is the precise alignment of data from different sensors. However, the calibration between LiDAR point clouds and camera images is typically time-consuming and needs external calibration board or specific environmental features. Cross-modal registration effectively solves this problem by aligning the data directly without requiring external calibration. However, due to the domain gap between the point cloud and the image, existing methods rarely achieve satisfactory registration accuracy while maintaining real-time performance. To address this issue, we propose a framework that projects point clouds into several 2D representations for matching with camera images, which not only leverages the geometric characteristic of LiDAR point clouds more effectively but also bridge the domain gap between the point cloud and image. Moreover, to tackle the challenges of cross modal differences and the limited overlap between LiDAR point clouds and images in the image matching task, we introduce a multi-scale feature extraction network to effectively extract features from both camera images and the projection maps of LiDAR point cloud. Additionally, we propose a patch-to-pixel matching network to provide more effective supervision and achieve higher accuracy. We validate the performance of our model through experiments on the KITTI and nuScenes datasets. Our network achieves real-time performance and extremely high registration accuracy. On the KITTI dataset, our model achieves a registration accuracy rate of over 99\%.

arxiv情報

著者 Yuanchao Yue,Zhengxin Li,Wei Zhang,Hui Yuan
発行日 2025-03-19 15:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク