要約
大規模なビデオ データセットの利用と拡散モデルの進歩により、テキスト駆動のビデオ生成は大幅な進歩を遂げました。
ただし、既存のビデオ生成モデルは通常、限られた数のフレームでトレーニングされるため、推論中に忠実度の高い長いビデオを生成できなくなります。
さらに、これらのモデルは単一テキスト条件のみをサポートしますが、実際のシナリオではビデオ コンテンツが時間の経過とともに変化するため、多くの場合マルチテキスト条件が必要になります。
これらの課題に取り組むために、この研究では、テキスト駆動機能を拡張して、複数のテキストを条件とした長いビデオを生成する可能性を検討しています。
1) まず、ビデオ拡散モデルにおける初期ノイズの影響を分析します。
次に、ノイズの観察に基づいて、コンテンツの一貫性を維持しながら、事前トレーニングされたビデオ拡散モデルの生成機能を強化する、調整不要で時間効率の良いパラダイムである FreeNoise を提案します。
具体的には、すべてのフレームのノイズを初期化する代わりに、長距離相関のために一連のノイズを再スケジュールし、ウィンドウベースの関数によってそれらに対して一時的な注意を実行します。
2) さらに、複数のテキスト プロンプトを条件としたビデオの生成をサポートする新しいモーション インジェクション方法を設計します。
広範な実験により、ビデオ拡散モデルの生成機能を拡張する際の私たちのパラダイムの優位性が検証されました。
約 255% の余分な時間コストをもたらした以前の最もパフォーマンスの高い方法と比較して、私たちの方法では約 17% というごくわずかな時間コストしかかからないことは注目に値します。
生成されたビデオ サンプルは、当社の Web サイト http://haonanqiu.com/projects/FreeNoise.html で入手できます。
要約(オリジナル)
With the availability of large-scale video datasets and the advances of diffusion models, text-driven video generation has achieved substantial progress. However, existing video generation models are typically trained on a limited number of frames, resulting in the inability to generate high-fidelity long videos during inference. Furthermore, these models only support single-text conditions, whereas real-life scenarios often require multi-text conditions as the video content changes over time. To tackle these challenges, this study explores the potential of extending the text-driven capability to generate longer videos conditioned on multiple texts. 1) We first analyze the impact of initial noise in video diffusion models. Then building upon the observation of noise, we propose FreeNoise, a tuning-free and time-efficient paradigm to enhance the generative capabilities of pretrained video diffusion models while preserving content consistency. Specifically, instead of initializing noises for all frames, we reschedule a sequence of noises for long-range correlation and perform temporal attention over them by window-based function. 2) Additionally, we design a novel motion injection method to support the generation of videos conditioned on multiple text prompts. Extensive experiments validate the superiority of our paradigm in extending the generative capabilities of video diffusion models. It is noteworthy that compared with the previous best-performing method which brought about 255% extra time cost, our method incurs only negligible time cost of approximately 17%. Generated video samples are available at our website: http://haonanqiu.com/projects/FreeNoise.html.
arxiv情報
著者 | Haonan Qiu,Menghan Xia,Yong Zhang,Yingqing He,Xintao Wang,Ying Shan,Ziwei Liu |
発行日 | 2023-10-23 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google