Rendering-Enhanced Automatic Image-to-Point Cloud Registration for Roadside Scenes

要約

従来の点群は 3D 環境コンテキストを提供し、データ フュージョンを介して 3D オブジェクト検出などの下流のビジョン タスクにおける単眼カメラの機能を強化します。
しかし、路側シーンの点群におけるカメラの外部パラメータを推定するための正確で自動化された登録方法が存在しないため、路側カメラの潜在的な用途が著しく制限されています。
この論文では、事前の点群と道路脇のシーンからの画像との間の自動位置合わせのための新しいアプローチを提案します。
主なアイデアには、RGB や強度値などの機能を利用して、事前の点群から特定の視点で撮影されたフォトリアリスティックなグレースケール ビューをレンダリングすることが含まれます。
これらの生成されたビューにより、画像と以前の点群間のモダリティの違いが軽減され、それによって位置合わせ結果の堅牢性と精度が向上します。
特に、レンダリング プロセスには、近隣レンダリングという名前の効率的なアルゴリズムを指定します。
次に、カメラの位置の大まかな推測のみを使用して、初期推測を自動的に推定する方法を紹介します。
最後に、セグメント何でもモデル (SAM) を使用して、生成画像とカメラ画像の両方から抽出されたライン特徴の再投影誤差を最小限に抑えることにより、外部パラメーターを反復的に調整する手順を提案します。
私たちは、大学のキャンパス全体に戦略的に配置された 8 台のカメラで構成される、自己収集したデータセットを使用して手法を評価します。
実験では、事前の点群を路側カメラ画像と自動的に位置合わせするこの方法の機能が実証され、0.202 度の回転精度と 0.079 m の変換精度を達成しました。
さらに、単眼の 3D オブジェクト検出パフォーマンスを大幅に向上させることで、視覚アプリケーションにおけるアプローチの有効性を検証します。

要約(オリジナル)

Prior point cloud provides 3D environmental context, which enhances the capabilities of monocular camera in downstream vision tasks, such as 3D object detection, via data fusion. However, the absence of accurate and automated registration methods for estimating camera extrinsic parameters in roadside scene point clouds notably constrains the potential applications of roadside cameras. This paper proposes a novel approach for the automatic registration between prior point clouds and images from roadside scenes. The main idea involves rendering photorealistic grayscale views taken at specific perspectives from the prior point cloud with the help of their features like RGB or intensity values. These generated views can reduce the modality differences between images and prior point clouds, thereby improve the robustness and accuracy of the registration results. Particularly, we specify an efficient algorithm, named neighbor rendering, for the rendering process. Then we introduce a method for automatically estimating the initial guess using only rough guesses of camera’s position. At last, we propose a procedure for iteratively refining the extrinsic parameters by minimizing the reprojection error for line features extracted from both generated and camera images using Segment Anything Model (SAM). We assess our method using a self-collected dataset, comprising eight cameras strategically positioned throughout the university campus. Experiments demonstrate our method’s capability to automatically align prior point cloud with roadside camera image, achieving a rotation accuracy of 0.202 degrees and a translation precision of 0.079m. Furthermore, we validate our approach’s effectiveness in visual applications by substantially improving monocular 3D object detection performance.

arxiv情報

著者 Yu Sheng,Lu Zhang,Xingchen Li,Yifan Duan,Yanyong Zhang,Yu Zhang,Jianmin Ji
発行日 2024-04-08 03:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク