DiffCalib: Reformulating Monocular Camera Calibration as Diffusion-Based Dense Incident Map Generation

要約

単眼カメラのキャリブレーションは、多くの 3D ビジョン アプリケーションにとって重要な前提条件です。
大幅な進歩にもかかわらず、既存の手法は多くの場合、特定の仮定に依存しており、現実世界のさまざまなシナリオにわたって一般化するのに苦労しており、トレーニング データが不十分であるためパフォーマンスが制限されています。
最近、広大なデータセットでトレーニングされた拡散モデルが、多様で高品質の画像を生成する能力を維持していることが確認されました。
この成功は、さまざまな視覚情報を効果的に理解するためのモデルの強力な可能性を示唆しています。
この研究では、事前トレーニングされた拡散モデルに組み込まれた包括的な視覚知識を活用して、より堅牢で正確な単眼カメラ固有の推定を可能にします。
具体的には、カメラ固有パラメータの 4 自由度 (4-DoF) を推定する問題を高密度インシデント マップ生成タスクとして再定式化します。
このマップは、RGB 画像内の各ピクセルの入射角を詳細に示しており、その形式は拡散モデルのパラダイムとよく一致しています。
カメラ固有のカメラは、推論中に単純な非学習 RANSAC アルゴリズムを使用してインシデント マップから導出できます。
さらに、パフォーマンスをさらに向上させるために、深度マップを共同推定して、インシデント マップ推定に追加の幾何学的情報を提供します。
複数のテスト データセットに対する広範な実験により、私たちのモデルが最先端のパフォーマンスを達成し、予測誤差が最大 40% 削減されることが実証されました。
さらに、実験では、パイプラインによって推定された正確なカメラ固有マップと深度マップが、単一の自然界の画像からの 3D 再構成などの実用的なアプリケーションに大きな利益をもたらす可能性があることも示しています。

要約(オリジナル)

Monocular camera calibration is a key precondition for numerous 3D vision applications. Despite considerable advancements, existing methods often hinge on specific assumptions and struggle to generalize across varied real-world scenarios, and the performance is limited by insufficient training data. Recently, diffusion models trained on expansive datasets have been confirmed to maintain the capability to generate diverse, high-quality images. This success suggests a strong potential of the models to effectively understand varied visual information. In this work, we leverage the comprehensive visual knowledge embedded in pre-trained diffusion models to enable more robust and accurate monocular camera intrinsic estimation. Specifically, we reformulate the problem of estimating the four degrees of freedom (4-DoF) of camera intrinsic parameters as a dense incident map generation task. The map details the angle of incidence for each pixel in the RGB image, and its format aligns well with the paradigm of diffusion models. The camera intrinsic then can be derived from the incident map with a simple non-learning RANSAC algorithm during inference. Moreover, to further enhance the performance, we jointly estimate a depth map to provide extra geometric information for the incident map estimation. Extensive experiments on multiple testing datasets demonstrate that our model achieves state-of-the-art performance, gaining up to a 40% reduction in prediction errors. Besides, the experiments also show that the precise camera intrinsic and depth maps estimated by our pipeline can greatly benefit practical applications such as 3D reconstruction from a single in-the-wild image.

arxiv情報

著者 Xiankang He,Guangkai Xu,Bo Zhang,Hao Chen,Ying Cui,Dongyan Guo
発行日 2024-05-24 15:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク