AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion

要約

正確なカメラのキャリブレーションは、特に複雑な光学歪みが一般的である現実世界の内部環境を扱う場合、3D認識の基本的なタスクです。
既存の方法は、多くの場合、事前に修正された画像またはキャリブレーションパターンに依存しており、適用性と柔軟性を制限します。
この作業では、一般的なレイカメラモデルを使用してカメラを共同でモデル化することにより、これらの課題に対処する新しいフレームワークを紹介します。
以前のアプローチとは異なり、Aligndiffはセマンティックから幾何学的特徴に焦点をシフトし、ローカルの歪みのより正確なモデリングを可能にします。
幾何学的前層を条件にした拡散モデルであるAligndiffを提案し、カメラの歪みとシーンジオメトリの同時推定を可能にします。
歪みの予測を強化するために、セマンティックコンテンツではなく、画像エッジの周りの幾何学的特徴にモデルを集中させ、エッジを意識した注意を組み込みます。
さらに、実際のキャプチャの一般化可能性を高めるために、3,000を超えるサンプルを含むレイトレースレンズの大きなデータベースを組み込みます。
このデータベースは、多様な種類のレンズフォームに固有の歪みを特徴付けます。
私たちの実験は、提案された方法が推定された光線バンドルの角度誤差を〜8.2度および全体的なキャリブレーション精度を大幅に減らし、挑戦的で現実世界のデータセットに関する既存のアプローチを上回ることを示しています。

要約(オリジナル)

Accurate camera calibration is a fundamental task for 3D perception, especially when dealing with real-world, in-the-wild environments where complex optical distortions are common. Existing methods often rely on pre-rectified images or calibration patterns, which limits their applicability and flexibility. In this work, we introduce a novel framework that addresses these challenges by jointly modeling camera intrinsic and extrinsic parameters using a generic ray camera model. Unlike previous approaches, AlignDiff shifts focus from semantic to geometric features, enabling more accurate modeling of local distortions. We propose AlignDiff, a diffusion model conditioned on geometric priors, enabling the simultaneous estimation of camera distortions and scene geometry. To enhance distortion prediction, we incorporate edge-aware attention, focusing the model on geometric features around image edges, rather than semantic content. Furthermore, to enhance generalizability to real-world captures, we incorporate a large database of ray-traced lenses containing over three thousand samples. This database characterizes the distortion inherent in a diverse variety of lens forms. Our experiments demonstrate that the proposed method significantly reduces the angular error of estimated ray bundles by ~8.2 degrees and overall calibration accuracy, outperforming existing approaches on challenging, real-world datasets.

arxiv情報

著者 Liuyue Xie,Jiancong Guo,Ozan Cakmakci,Andre Araujo,Laszlo A. Jeni,Zhiheng Jia
発行日 2025-03-27 14:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク