要約
単一画像の 3D 再構成は、固有の幾何学的な曖昧さと限られた視点情報により、コンピューター ビジョンにおける基本的な課題のままです。
潜在ビデオ拡散モデル (LVDM) の最近の進歩により、大規模なビデオ データから学習された有望な 3D 事前分布が提供されます。
ただし、これらの事前手法を効果的に活用すると、(1) 大きなカメラの動きによる品質の低下、(2) 正確なカメラ制御を達成することの困難、(3) 3D の一貫性を損なう拡散プロセスに固有の幾何学的歪みという 3 つの重要な課題に直面します。
私たちは、3D の一貫性を確保しながら LVDM の生成事前分布を効果的に解放するフレームワークである LiftImage3D を提案することで、これらの課題に対処します。
具体的には、ビデオ フレームを生成するための関節軌道戦略を設計します。これにより、大きなカメラの動きが含まれるビデオ シーケンスが、制御可能な小さな動きを含むビデオ シーケンスに分解されます。
次に、堅牢なニューラル マッチング モデル、つまり MASt3R を使用して、生成されたフレームのカメラのポーズを調整し、対応する点群を生成します。
最後に、フレーム間の独立した歪みを学習し、歪みのない正規ガウスを出力できる、歪みを考慮した 3D ガウス スプラッティング表現を提案します。
広範な実験により、LiftImage3D が 2 つの困難なデータセット (LLFF、DL3DV、戦車と寺院) で最先端のパフォーマンスを達成し、漫画のイラストから現実世界の複雑なシーンに至るまで、さまざまな現実の画像にうまく一般化できることが実証されました。
。
要約(オリジナル)
Single-image 3D reconstruction remains a fundamental challenge in computer vision due to inherent geometric ambiguities and limited viewpoint information. Recent advances in Latent Video Diffusion Models (LVDMs) offer promising 3D priors learned from large-scale video data. However, leveraging these priors effectively faces three key challenges: (1) degradation in quality across large camera motions, (2) difficulties in achieving precise camera control, and (3) geometric distortions inherent to the diffusion process that damage 3D consistency. We address these challenges by proposing LiftImage3D, a framework that effectively releases LVDMs’ generative priors while ensuring 3D consistency. Specifically, we design an articulated trajectory strategy to generate video frames, which decomposes video sequences with large camera motions into ones with controllable small motions. Then we use robust neural matching models, i.e. MASt3R, to calibrate the camera poses of generated frames and produce corresponding point clouds. Finally, we propose a distortion-aware 3D Gaussian splatting representation, which can learn independent distortions between frames and output undistorted canonical Gaussians. Extensive experiments demonstrate that LiftImage3D achieves state-of-the-art performance on two challenging datasets, i.e. LLFF, DL3DV, and Tanks and Temples, and generalizes well to diverse in-the-wild images, from cartoon illustrations to complex real-world scenes.
arxiv情報
著者 | Yabo Chen,Chen Yang,Jiemin Fang,Xiaopeng Zhang,Lingxi Xie,Wei Shen,Wenrui Dai,Hongkai Xiong,Qi Tian |
発行日 | 2024-12-12 18:58:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google