要約
この作業では、トレーニングなしの設定での逆の問題として、単眼動画からの動的ビューの合成に対処します。
事前に訓練されたビデオ拡散モデルのノイズ初期化フェーズを再設計することにより、重量の更新や補助モジュールなしで高忠実度の動的ビュー合成を有効にします。
まず、ゼロ末端信号対雑音比(SNR)スケジュールから生じる決定論的反転に対する根本的な障害を特定し、K-order Recursive Noise表現と呼ばれる新しいノイズ表現を導入することによりそれを解決します。
この表現のために閉じた形式の式を導き出し、VAEエンコードされた潜在潜水vateとDDIMの逆潜レントとの間の正確で効率的なアライメントを可能にします。
カメラの動きに起因する新たに可視される領域を合成するために、潜在領域を完全に閉じ込めて潜在スペースを介して視界を認識してサンプリングを実行する確率的潜在的変調を導入します。
包括的な実験は、ノイズ初期化フェーズでの構造化された潜在操作を通じて、動的ビュー合成を効果的に実行できることを示しています。
要約(オリジナル)
In this work, we address dynamic view synthesis from monocular videos as an inverse problem in a training-free setting. By redesigning the noise initialization phase of a pre-trained video diffusion model, we enable high-fidelity dynamic view synthesis without any weight updates or auxiliary modules. We begin by identifying a fundamental obstacle to deterministic inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and resolve it by introducing a novel noise representation, termed K-order Recursive Noise Representation. We derive a closed form expression for this representation, enabling precise and efficient alignment between the VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions resulting from camera motion, we introduce Stochastic Latent Modulation, which performs visibility aware sampling over the latent space to complete occluded regions. Comprehensive experiments demonstrate that dynamic view synthesis can be effectively performed through structured latent manipulation in the noise initialization phase.
arxiv情報
著者 | Hidir Yesiltepe,Pinar Yanardag |
発行日 | 2025-06-09 17:59:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google