Dust to Tower: Coarse-to-Fine Photo-Realistic Scene Reconstruction from Sparse Uncalibrated Images

要約

実際には、まばらなビューのキャリブレーションされていない画像から写真のようにリアルなシーンを再構成することが非常に必要です。
いくつかの成功は収められていますが、既存の方法は、Sparse-View であるが正確なカメラ パラメータ (つまり、内部および外部) を必要とするか、SfM フリーであるが高密度でキャプチャされた画像を必要とするかのいずれかです。
両方の方法の利点を組み合わせながら、それぞれの弱点に対処するために、私たちは、まばらでキャリブレーションされていない画像から 3DGS と画像ポーズを同時に最適化する、正確かつ効率的な粗密フレームワークである Dust to Tower (D2T) を提案します。
私たちの重要なアイデアは、最初に粗いモデルを効率的に構築し、その後、新しい視点でワープおよび修復された画像を使用してモデルを改良することです。
これを行うために、まず、高速マルチビュー ステレオ モデルを利用して 3D ガウス スプラッティング (3DGS) を初期化し、初期カメラ ポーズを回復する粗い構築モジュール (CCM) を導入します。
新しい視点で 3D モデルを改良するために、信頼できる部分をモノデプス モデルによる推定深度に位置合わせすることで、粗い深度マップを改良する Confidence Aware Depth Alignment (CADA) モジュールを提案します。
次に、洗練された深度マップによってトレーニング画像を新しい視点にワープするために、ワープ画像ガイド付きインペインティング (WIGI) モジュールが提案され、ビュー方向の変更によって引き起こされたワープ画像の「穴」を埋めるためにインペインティングが適用されます。
高品質の監督を提供して、3D モデルとカメラのポーズをさらに最適化します。
広範な実験とアブレーション研究により、D2T とその設計選択の有効性が実証され、高効率を維持しながら新しいビューの合成と姿勢推定の両方のタスクで最先端のパフォーマンスが達成されます。
コードは公開されます。

要約(オリジナル)

Photo-realistic scene reconstruction from sparse-view, uncalibrated images is highly required in practice. Although some successes have been made, existing methods are either Sparse-View but require accurate camera parameters (i.e., intrinsic and extrinsic), or SfM-free but need densely captured images. To combine the advantages of both methods while addressing their respective weaknesses, we propose Dust to Tower (D2T), an accurate and efficient coarse-to-fine framework to optimize 3DGS and image poses simultaneously from sparse and uncalibrated images. Our key idea is to first construct a coarse model efficiently and subsequently refine it using warped and inpainted images at novel viewpoints. To do this, we first introduce a Coarse Construction Module (CCM) which exploits a fast Multi-View Stereo model to initialize a 3D Gaussian Splatting (3DGS) and recover initial camera poses. To refine the 3D model at novel viewpoints, we propose a Confidence Aware Depth Alignment (CADA) module to refine the coarse depth maps by aligning their confident parts with estimated depths by a Mono-depth model. Then, a Warped Image-Guided Inpainting (WIGI) module is proposed to warp the training images to novel viewpoints by the refined depth maps, and inpainting is applied to fulfill the “holes’ in the warped images caused by view-direction changes, providing high-quality supervision to further optimize the 3D model and the camera poses. Extensive experiments and ablation studies demonstrate the validity of D2T and its design choices, achieving state-of-the-art performance in both tasks of novel view synthesis and pose estimation while keeping high efficiency. Codes will be publicly available.

arxiv情報

著者 Xudong Cai,Yongcai Wang,Zhaoxin Fan,Deng Haoran,Shuo Wang,Wanting Li,Deying Li,Lun Luo,Minhang Wang,Jintao Xu
発行日 2024-12-27 08:19:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク