要約
本論文では、1枚の画像から汎用的なシーンを生成するための、運動量に基づく動画拡散のパラダイムであるScene Splatterを提案する。新規なビューを合成するためにビデオ生成モデルを用いる既存の手法は、限られたビデオ長さとシーンの一貫性のなさに苦しみ、さらに再構成する際にアーチファクトや歪みを引き起こす。この問題に対処するため、我々は、映像の詳細を強調し、シーンの一貫性を維持するために、元の特徴からノイズの多いサンプルを運動量として構築する。しかし、既知の領域と未知の領域の両方にまたがる知覚野を持つ潜在特徴量の場合、このような潜在レベルの運動量では、未知の領域における映像拡散の生成能力が制限される。そこで、我々は、未知の領域をより良く復元するために、運動量なしで直接生成された映像に、画素レベルの運動量として前述の一貫性のある映像をさらに導入する。このカスケードされた運動量により、映像拡散モデルは高忠実度で一貫性のある新しいビューを生成することができる。さらに、強化されたフレームを用いて大域的なガウス表現を微調整し、次のステップで運動量更新のための新しいフレームをレンダリングする。このようにして、映像の長さの制限を回避しながら、3Dシーンを反復的に復元することができる。広範な実験により、高忠実度で一貫性のあるシーン生成における、我々の手法の汎化能力と優れた性能が実証された。
要約(オリジナル)
In this paper, we propose Scene Splatter, a momentum-based paradigm for video diffusion to generate generic scenes from single image. Existing methods, which employ video generation models to synthesize novel views, suffer from limited video length and scene inconsistency, leading to artifacts and distortions during further reconstruction. To address this issue, we construct noisy samples from original features as momentum to enhance video details and maintain scene consistency. However, for latent features with the perception field that spans both known and unknown regions, such latent-level momentum restricts the generative ability of video diffusion in unknown regions. Therefore, we further introduce the aforementioned consistent video as a pixel-level momentum to a directly generated video without momentum for better recovery of unseen regions. Our cascaded momentum enables video diffusion models to generate both high-fidelity and consistent novel views. We further finetune the global Gaussian representations with enhanced frames and render new frames for momentum update in the next step. In this manner, we can iteratively recover a 3D scene, avoiding the limitation of video length. Extensive experiments demonstrate the generalization capability and superior performance of our method in high-fidelity and consistent scene generation.
arxiv情報
| 著者 | Shengjun Zhang,Jinzhao Li,Xin Fei,Hao Liu,Yueqi Duan |
| 発行日 | 2025-04-03 17:00:44+00:00 |
| arxivサイト | arxiv_id(pdf) |