要約
現在の構造からの構造(SFM)メソッドは、通常、2段階のパイプラインに続き、学習または幾何学的なペアワイズの推論とその後のグローバルな最適化ステップを組み合わせます。
対照的に、マルチビュー画像から3Dシーンのジオメトリとカメラのポーズを直接誘導するデータ駆動型のマルチビュー推論アプローチを提案します。
私たちのフレームワークであるdiffusionsfmは、シーンのジオメトリとカメラをグローバルフレームのピクセルごとの光線起源とエンドポイントとしてパラメーター化し、トランスベースの拡散モデルを使用してマルチビュー入力からそれらを予測します。
欠落したデータと無制限のシーン座標で拡散モデルをトレーニングする際の実際的な課題に対処するために、堅牢な学習を確保する特殊なメカニズムを導入します。
合成データセットと実際のデータセットの両方で拡散を経験的に検証し、自然に不確実性をモデル化しながら、古典的および学習ベースのアプローチよりも優れていることを示しています。
要約(オリジナル)
Current Structure-from-Motion (SfM) methods typically follow a two-stage pipeline, combining learned or geometric pairwise reasoning with a subsequent global optimization step. In contrast, we propose a data-driven multi-view reasoning approach that directly infers 3D scene geometry and camera poses from multi-view images. Our framework, DiffusionSfM, parameterizes scene geometry and cameras as pixel-wise ray origins and endpoints in a global frame and employs a transformer-based denoising diffusion model to predict them from multi-view inputs. To address practical challenges in training diffusion models with missing data and unbounded scene coordinates, we introduce specialized mechanisms that ensure robust learning. We empirically validate DiffusionSfM on both synthetic and real datasets, demonstrating that it outperforms classical and learning-based approaches while naturally modeling uncertainty.
arxiv情報
著者 | Qitao Zhao,Amy Lin,Jeff Tan,Jason Y. Zhang,Deva Ramanan,Shubham Tulsiani |
発行日 | 2025-05-08 17:59:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google