要約
クロスモーダルデータ登録は、自律的な運転とロボット工学に広範なアプリケーションを備えたコンピュータービジョンの重要なタスクでした。
正確で堅牢な登録方法は、さまざまなモダリティからのデータを調整し、マルチモーダルセンサーデータの融合の基礎を形成し、知覚システムの精度と信頼性を高めるために不可欠です。
カメラでキャプチャされた2D画像間の登録タスクと、光検出と範囲(LIDAR)センサーによってキャプチャされた3Dポイントクラウドが通常、視覚的なポーズ推定問題として扱われます。
さまざまなモダリティからの高次元の特徴の類似性が活用され、ピクセル点の対応を識別し、その後、最小二乗法を使用したポーズ推定技術が続きます。
ただし、既存のアプローチは、計算上の制約のために元のポイントクラウドと画像データをダウンサンプリングすることに頼ることが多く、必然的に精度の損失につながります。
さらに、さまざまなモダリティからの異なる特徴抽出器を使用して抽出された高次元の特徴には、効果的なマッチングのためにクロスモーダルの違いを緩和するための特定の手法が必要です。
これらの課題に対処するために、元のポイントクラウドからのエッジ情報を使用し、クロスモーダル登録に画像を使用する方法を提案します。
エッジポイントとピクセルを抽出し、計算効率を維持しながら登録の精度を向上させることにより、元のデータから重要な情報を保持します。
エッジポイントとエッジピクセルを使用すると、注意ベースの機能交換ブロックを導入して、クロスモーダルの格差を排除できます。
さらに、対応識別を改善するために最適なマッチング層を組み込みます。
KittiおよびNuscenesデータセットのメソッドの精度を検証し、最先端のパフォーマンスを実証します。
要約(オリジナル)
Cross-modal data registration has long been a critical task in computer vision, with extensive applications in autonomous driving and robotics. Accurate and robust registration methods are essential for aligning data from different modalities, forming the foundation for multimodal sensor data fusion and enhancing perception systems’ accuracy and reliability. The registration task between 2D images captured by cameras and 3D point clouds captured by Light Detection and Ranging (LiDAR) sensors is usually treated as a visual pose estimation problem. High-dimensional feature similarities from different modalities are leveraged to identify pixel-point correspondences, followed by pose estimation techniques using least squares methods. However, existing approaches often resort to downsampling the original point cloud and image data due to computational constraints, inevitably leading to a loss in precision. Additionally, high-dimensional features extracted using different feature extractors from various modalities require specific techniques to mitigate cross-modal differences for effective matching. To address these challenges, we propose a method that uses edge information from the original point clouds and images for cross-modal registration. We retain crucial information from the original data by extracting edge points and pixels, enhancing registration accuracy while maintaining computational efficiency. The use of edge points and edge pixels allows us to introduce an attention-based feature exchange block to eliminate cross-modal disparities. Furthermore, we incorporate an optimal matching layer to improve correspondence identification. We validate the accuracy of our method on the KITTI and nuScenes datasets, demonstrating its state-of-the-art performance.
arxiv情報
著者 | Yuanchao Yue,Hui Yuan,Qinglong Miao,Xiaolong Mao,Raouf Hamzaoui,Peter Eisert |
発行日 | 2025-03-19 15:03:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google