要約
高品質のビデオ生成は、映画産業や自律運転など、多くの分野で重要です。
ただし、時空間的な一貫性を使用してビデオを生成することは依然として困難です。
現在の方法は通常、注意メカニズムを利用したり、ノイズを変更して一貫したビデオを達成し、ビデオ生成中の空間的および時間的一貫性を確保するのに役立つグローバルな空間的情報を無視します。
このホワイトペーパーでは、ビデオ生成における空間的一貫性を高めるために、マルチレベルのノイズ分解、マルチフレームノイズコラボレーション、および共同除去からなるノイズコントローラーを提案します。
マルチレベルのノイズ分解では、最初に初期ノイズをシーンレベルの前景/背景ノイズに分解し、異なるモーションプロパティをキャプチャして、マルチビュー前景/背景のバリエーションをモデル化します。
さらに、各シーンレベルのノイズは、個々のレベルの共有および残留コンポーネントにさらに分解されます。
共有ノイズは一貫性を維持し、残差コンポーネントは多様性を維持します。
マルチフレームノイズコラボレーションでは、相互のクロスビュー効果と履歴クロスフレームインパクトをキャプチャしてビデオ品質を高めるために、インタービューの時空間コラボレーションマトリックスとビュー内のインパクトコラボレーションマトリックスを導入します。
共同除去には、2つの並列除去Uネットが含まれており、各シーンレベルのノイズを除去し、ビデオ生成を相互に強化します。
ビデオ生成とダウンストリームタスクに焦点を当てたパブリックデータセットでNoiseControllerを評価し、最先端のパフォーマンスを実証します。
要約(オリジナル)
High-quality video generation is crucial for many fields, including the film industry and autonomous driving. However, generating videos with spatiotemporal consistencies remains challenging. Current methods typically utilize attention mechanisms or modify noise to achieve consistent videos, neglecting global spatiotemporal information that could help ensure spatial and temporal consistency during video generation. In this paper, we propose the NoiseController, consisting of Multi-Level Noise Decomposition, Multi-Frame Noise Collaboration, and Joint Denoising, to enhance spatiotemporal consistencies in video generation. In multi-level noise decomposition, we first decompose initial noises into scene-level foreground/background noises, capturing distinct motion properties to model multi-view foreground/background variations. Furthermore, each scene-level noise is further decomposed into individual-level shared and residual components. The shared noise preserves consistency, while the residual component maintains diversity. In multi-frame noise collaboration, we introduce an inter-view spatiotemporal collaboration matrix and an intra-view impact collaboration matrix , which captures mutual cross-view effects and historical cross-frame impacts to enhance video quality. The joint denoising contains two parallel denoising U-Nets to remove each scene-level noise, mutually enhancing video generation. We evaluate our NoiseController on public datasets focusing on video generation and downstream tasks, demonstrating its state-of-the-art performance.
arxiv情報
著者 | Haotian Dong,Xin Wang,Di Lin,Yipeng Wu,Qin Chen,Ruonan Liu,Kairui Yang,Ping Li,Qing Guo |
発行日 | 2025-04-25 16:01:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google