要約
カメラ キャリブレーションのプロセスには、3D 再構成、オブジェクト追跡、拡張現実などのタスクを正確に実行するために不可欠な内部パラメータと外部パラメータの推定が含まれます。
この研究では、固有 (焦点距離: $(f_x, f_y)$ および主点: $(p_x, p_y)$) および外部 (ベースライン: ($b$)、
視差: ($d$)、平行移動: $(t_x, t_y, t_z)$、回転、特にピッチ: $(\theta_p)$) のカメラ パラメーター。
私たちの新しい制約は、投影行列の構造 (消失点、世界原点の画像、軸平面) や回転行列の正規直交性など、カメラ モデルに固有の幾何学的特性に基づいています。
そこで、マルチタスク学習フレームワークを介した新しい教師なし幾何拘束損失 (UGCL) を提案しました。
私たちの方法論は、ニューラル ネットワークの学習能力を利用して、カメラ投影行列に固有の基礎となる数学的特性とともに必要なパラメーターを推定するハイブリッド アプローチです。
この独特のアプローチは、モデルの解釈可能性を高めるだけでなく、より多くの情報に基づいた学習プロセスを促進します。
さらに、900 を超えるカメラ パラメーターの構成を特徴とする新しい CVGL カメラ キャリブレーション データセットを導入し、現実世界の状況を厳密に反映する 63,600 の画像ペアを組み込んでいます。
合成データセットと現実世界のデータセットの両方でトレーニングとテストを行うことにより、私たちが提案するアプローチは、最先端 (SOTA) ベンチマークと比較した場合、すべてのパラメーターにわたって改善が見られることが実証されています。
コードと更新されたデータセットはここにあります: https://github.com/CVLABLUMS/CVGL-Camera-Calibration
要約(オリジナル)
The process of camera calibration involves estimating the intrinsic and extrinsic parameters, which are essential for accurately performing tasks such as 3D reconstruction, object tracking and augmented reality. In this work, we propose a novel constraints-based loss for measuring the intrinsic (focal length: $(f_x, f_y)$ and principal point: $(p_x, p_y)$) and extrinsic (baseline: ($b$), disparity: ($d$), translation: $(t_x, t_y, t_z)$, and rotation specifically pitch: $(\theta_p)$) camera parameters. Our novel constraints are based on geometric properties inherent in the camera model, including the anatomy of the projection matrix (vanishing points, image of world origin, axis planes) and the orthonormality of the rotation matrix. Thus we proposed a novel Unsupervised Geometric Constraint Loss (UGCL) via a multitask learning framework. Our methodology is a hybrid approach that employs the learning power of a neural network to estimate the desired parameters along with the underlying mathematical properties inherent in the camera projection matrix. This distinctive approach not only enhances the interpretability of the model but also facilitates a more informed learning process. Additionally, we introduce a new CVGL Camera Calibration dataset, featuring over 900 configurations of camera parameters, incorporating 63,600 image pairs that closely mirror real-world conditions. By training and testing on both synthetic and real-world datasets, our proposed approach demonstrates improvements across all parameters when compared to the state-of-the-art (SOTA) benchmarks. The code and the updated dataset can be found here: https://github.com/CVLABLUMS/CVGL-Camera-Calibration
arxiv情報
著者 | Muhammad Waleed,Abdul Rauf,Murtaza Taj |
発行日 | 2024-02-13 13:07:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google