Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model

要約

最近、マルチビューまたは4Dビデオ生成が重要な研究トピックとして浮上しています。
それにもかかわらず、4D世代への最近のアプローチは、追加のトレーニングを備えた複数のビデオ拡散モデルを利用して、限られた現実世界4Dデータと大きな計算コストを備えた完全な4D拡散モデルの計算集約型トレーニングで主に依存しているため、根本的な制限と依然として格付けに苦しんでいます。
これらの課題に対処するために、ここでは、既製のビデオ拡散モデルを活用して、単一の入力ビデオからマルチビュービデオを生成する最初のトレーニングなしの4Dビデオ生成方法を提案します。
私たちのアプローチは、2つの重要な手順で構成されています。(1)空間的サンプリンググリッドのエッジフレームをキーフレームとして指定することにより、最初にビデオ拡散モデルを使用してそれらを合成し、ガイダンスのために深さベースのワーピング技術を活用します。
このアプローチにより、生成されたフレーム全体で構造的な一貫性が保証され、空間的および時間的一貫性が保存されます。
(2)次に、ビデオ拡散モデルを使用して残りのフレームを補間し、空間的および時間的な一貫性を保存しながら、完全に人口のかつ時間的に一貫性のあるサンプリンググリッドを構築します。
このアプローチを通じて、単一のビデオを、時空間の一貫性を維持しながら、新しいカメラの軌跡に沿ってマルチビュービデオに拡張します。
私たちの方法はトレーニングなしで、既製のビデオ拡散モデルを完全に利用しており、マルチビュービデオ生成のための実用的で効果的なソリューションを提供します。

要約(オリジナル)

Recently, multi-view or 4D video generation has emerged as a significant research topic. Nonetheless, recent approaches to 4D generation still struggle with fundamental limitations, as they primarily rely on harnessing multiple video diffusion models with additional training or compute-intensive training of a full 4D diffusion model with limited real-world 4D data and large computational costs. To address these challenges, here we propose the first training-free 4D video generation method that leverages the off-the-shelf video diffusion models to generate multi-view videos from a single input video. Our approach consists of two key steps: (1) By designating the edge frames in the spatio-temporal sampling grid as key frames, we first synthesize them using a video diffusion model, leveraging a depth-based warping technique for guidance. This approach ensures structural consistency across the generated frames, preserving spatial and temporal coherence. (2) We then interpolate the remaining frames using a video diffusion model, constructing a fully populated and temporally coherent sampling grid while preserving spatial and temporal consistency. Through this approach, we extend a single video into a multi-view video along novel camera trajectories while maintaining spatio-temporal consistency. Our method is training-free and fully utilizes an off-the-shelf video diffusion model, offering a practical and effective solution for multi-view video generation.

arxiv情報

著者 Jangho Park,Taesung Kwon,Jong Chul Ye
発行日 2025-03-28 17:14:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク