ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

要約

3D シーン再構成の進歩により、現実世界の 2D 画像が 3D モデルに変換され、数百枚の入力写真からリアルな 3D 結果が生成されます。
高密度ビューの再構築シナリオでは大きな成功を収めていますが、キャプチャされた不十分なビューから詳細なシーンをレンダリングすることは依然として不適切な最適化問題であり、多くの場合、目に見えない領域にアーティファクトや歪みが発生します。
この論文では、曖昧な再構築の課題を時間的生成タスクとして再構築する新しい 3D シーン再構築パラダイムである ReconX を提案します。
重要な洞察は、スパースビュー再構成のために、事前にトレーニングされた大規模なビデオ拡散モデルの強力な事前生成を解き放つことです。
ただし、事前トレーニングされたモデルから直接生成されたビデオ フレームでは、3D ビューの一貫性を正確に維持するのが困難です。
これに対処するために、入力ビューが限られている場合、提案された ReconX は最初にグローバル点群を構築し、それを 3D 構造条件としてコンテキスト空間にエンコードします。
ビデオ拡散モデルは、条件に基づいて、細部が保存され、高度な 3D 一貫性を示すビデオ フレームを合成し、さまざまな視点からシーンの一貫性を確保します。
最後に、信頼性を考慮した 3D ガウス スプラッティング最適化スキームを通じて、生成されたビデオから 3D シーンを復元します。
現実世界のさまざまなデータセットに対する広範な実験により、品質と一般化可能性の点で最先端の手法よりも ReconX が優れていることが示されています。

要約(オリジナル)

Advancements in 3D scene reconstruction have transformed 2D images from the real world into 3D models, producing realistic 3D results from hundreds of input photos. Despite great success in dense-view reconstruction scenarios, rendering a detailed scene from insufficient captured views is still an ill-posed optimization problem, often resulting in artifacts and distortions in unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction paradigm that reframes the ambiguous reconstruction challenge as a temporal generation task. The key insight is to unleash the strong generative prior of large pre-trained video diffusion models for sparse-view reconstruction. However, 3D view consistency struggles to be accurately preserved in directly generated video frames from pre-trained models. To address this, given limited input views, the proposed ReconX first constructs a global point cloud and encodes it into a contextual space as the 3D structure condition. Guided by the condition, the video diffusion model then synthesizes video frames that are both detail-preserved and exhibit a high degree of 3D consistency, ensuring the coherence of the scene from various perspectives. Finally, we recover the 3D scene from the generated video through a confidence-aware 3D Gaussian Splatting optimization scheme. Extensive experiments on various real-world datasets show the superiority of our ReconX over state-of-the-art methods in terms of quality and generalizability.

arxiv情報

著者 Fangfu Liu,Wenqiang Sun,Hanyang Wang,Yikai Wang,Haowen Sun,Junliang Ye,Jun Zhang,Yueqi Duan
発行日 2024-08-29 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク