Deep-BrownConrady: Prediction of Camera Calibration and Distortion Parameters Using Deep Learning and Synthetic Data

要約

この研究では、ディープラーニングモデルを使用して、単一の画像からのカメラのキャリブレーションと歪みパラメーターの予測の課題に対処しています。
この作業の主な貢献は次のとおりです。(1)実際の画像と合成画像の組み合わせで訓練された深い学習モデルが、単一の画像からカメラとレンズのパラメーターを正確に予測できることを実証し、(2)包括的な合成データセットを開発すること
Ailivesimシミュレーションプラットフォーム。
このデータセットには、焦点距離とレンズの歪みパラメーターのバリエーションが含まれており、モデルトレーニングとテストのための堅牢な基盤を提供します。
トレーニングプロセスは、主にこれらの合成画像に依存しており、実際の画像の小さなサブセットによって補完され、合成データでトレーニングされたモデルが実際の画像でキャリブレーションタスクを実行できる方法を探りました。
従来のキャリブレーション方法には、さまざまな方向からのキャリブレーションオブジェクトの複数の画像が必要です。これは、公開されているデータセットにそのような画像が不足しているために実行不可能です。
ResNetアーキテクチャに基づいたディープラーニングネットワークは、この合成データセットでトレーニングされ、Brown-Conradyレンズモデルに続くカメラのキャリブレーションパラメーターを予測しました。
回帰タスクに適合したResNetアーキテクチャは、自律運転、ロボット工学、拡張現実などのアプリケーションでの正確なカメラキャリブレーションに不可欠な連続値を予測することができます。
キーワード:カメラのキャリブレーション、歪み、合成データ、ディープラーニング、残留ネットワーク(ResNet)、アイリブスイム、水平フィールド、プリンシパルポイント、ブラウンコンラディモデル。

要約(オリジナル)

This research addresses the challenge of camera calibration and distortion parameter prediction from a single image using deep learning models. The main contributions of this work are: (1) demonstrating that a deep learning model, trained on a mix of real and synthetic images, can accurately predict camera and lens parameters from a single image, and (2) developing a comprehensive synthetic dataset using the AILiveSim simulation platform. This dataset includes variations in focal length and lens distortion parameters, providing a robust foundation for model training and testing. The training process predominantly relied on these synthetic images, complemented by a small subset of real images, to explore how well models trained on synthetic data can perform calibration tasks on real-world images. Traditional calibration methods require multiple images of a calibration object from various orientations, which is often not feasible due to the lack of such images in publicly available datasets. A deep learning network based on the ResNet architecture was trained on this synthetic dataset to predict camera calibration parameters following the Brown-Conrady lens model. The ResNet architecture, adapted for regression tasks, is capable of predicting continuous values essential for accurate camera calibration in applications such as autonomous driving, robotics, and augmented reality. Keywords: Camera calibration, distortion, synthetic data, deep learning, residual networks (ResNet), AILiveSim, horizontal field-of-view, principal point, Brown-Conrady Model.

arxiv情報

著者 Faiz Muhammad Chaudhry,Jarno Ralli,Jerome Leudet,Fahad Sohrab,Farhad Pakdaman,Pierre Corbani,Moncef Gabbouj
発行日 2025-01-24 14:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク