VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

要約

疎なビューから3Dシーンを復元することは、その本質的な非正規問題のために困難なタスクである。従来の手法では、この問題を軽減するための特殊な解決策(例えば、ジオメトリ正則化やフィードフォワード決定論的モデル)が開発されてきた。しかし、それでもなお、視覚情報が不十分な入力ビュー間の重なりが最小限であることによる性能劣化に悩まされている。幸いなことに、最近のビデオ生成モデルは、もっともらしい3D構造を持つビデオクリップを生成できるため、この課題への対処に有望である。事前に学習された大規模な映像拡散モデルを用いて、いくつかの先駆的な研究が映像生成モデルの可能性を追求し始め、疎なビューから3Dシーンを生成している。しかしながら、これらの研究は、推論時間の遅さと3D制約の欠如によって制限されており、非効率と、実世界の形状構造と一致しない再構成アーチファクトを引き起こしている。本論文では、動画から3Dへのギャップを埋める効率的で効果的なツールの構築を目指し、ワンステップで3Dシーンを生成するために動画拡散モデルを抽出するVideoSceneを提案する。具体的には、時間のかかる冗長な情報をリープするための3Dを意識したリープフロー蒸留戦略を設計し、推論中に最適なリープタイムステップを適応的に決定するための動的ノイズ除去ポリシーネットワークを学習する。広範な実験により、我々のVideoSceneは、従来のビデオ拡散モデルよりも高速で優れた3Dシーン生成結果を達成し、将来のビデオから3Dへのアプリケーションのための効率的なツールとしての可能性を強調している。プロジェクトページ: https://hanyang-21.github.io/VideoScene

要約(オリジナル)

Recovering 3D scenes from sparse views is a challenging task due to its inherent ill-posed problem. Conventional methods have developed specialized solutions (e.g., geometry regularization or feed-forward deterministic model) to mitigate the issue. However, they still suffer from performance degradation by minimal overlap across input views with insufficient visual information. Fortunately, recent video generative models show promise in addressing this challenge as they are capable of generating video clips with plausible 3D structures. Powered by large pretrained video diffusion models, some pioneering research start to explore the potential of video generative prior and create 3D scenes from sparse views. Despite impressive improvements, they are limited by slow inference time and the lack of 3D constraint, leading to inefficiencies and reconstruction artifacts that do not align with real-world geometry structure. In this paper, we propose VideoScene to distill the video diffusion model to generate 3D scenes in one step, aiming to build an efficient and effective tool to bridge the gap from video to 3D. Specifically, we design a 3D-aware leap flow distillation strategy to leap over time-consuming redundant information and train a dynamic denoising policy network to adaptively determine the optimal leap timestep during inference. Extensive experiments demonstrate that our VideoScene achieves faster and superior 3D scene generation results than previous video diffusion models, highlighting its potential as an efficient tool for future video to 3D applications. Project Page: https://hanyang-21.github.io/VideoScene

arxiv情報

著者 Hanyang Wang,Fangfu Liu,Jiawei Chi,Yueqi Duan
発行日 2025-04-03 14:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク