要約
このホワイト ペーパーでは、非常に長いビデオ生成のための新しい Diffusion over Diffusion アーキテクチャである NUWA-XL を提案します。
現在のほとんどの作業では、長いビデオのセグメントごとに順次生成されます。これにより、通常、短いビデオのトレーニングと長いビデオの推測の間にギャップが生じ、順次生成は非効率的です。
代わりに、私たちのアプローチは、同じ粒度でビデオを並行して生成できる「粗から細かい」プロセスを採用しています。
グローバル拡散モデルが適用されて、時間範囲全体にわたってキーフレームが生成されます。次に、ローカル拡散モデルが、近くのフレーム間のコンテンツを再帰的に埋めます。
このシンプルかつ効果的な戦略により、長いビデオ (3376 フレーム) を直接トレーニングして、トレーニングと推論のギャップを減らし、すべてのセグメントを並行して生成することができます。
モデルを評価するために、長いビデオ生成の新しいベンチマークである FlintstonesHD データセットを構築します。
実験によると、私たちのモデルは、グローバル コヒーレンスとローカル コヒーレンスの両方で高品質の長いビデオを生成するだけでなく、1024 フレームを生成する場合、同じハードウェア設定で平均推論時間を 7.55 分から 26 秒 (94.26\%) に短縮します。
ホームページのリンクは \url{https://msra-nuwa.azurewebsites.net/} です。
要約(オリジナル)
In this paper, we propose NUWA-XL, a novel Diffusion over Diffusion architecture for eXtremely Long video generation. Most current work generates long videos segment by segment sequentially, which normally leads to the gap between training on short videos and inferring long videos, and the sequential generation is inefficient. Instead, our approach adopts a “coarse-to-fine” process, in which the video can be generated in parallel at the same granularity. A global diffusion model is applied to generate the keyframes across the entire time range, and then local diffusion models recursively fill in the content between nearby frames. This simple yet effective strategy allows us to directly train on long videos (3376 frames) to reduce the training-inference gap, and makes it possible to generate all segments in parallel. To evaluate our model, we build FlintstonesHD dataset, a new benchmark for long video generation. Experiments show that our model not only generates high-quality long videos with both global and local coherence, but also decreases the average inference time from 7.55min to 26s (by 94.26\%) at the same hardware setting when generating 1024 frames. The homepage link is \url{https://msra-nuwa.azurewebsites.net/}
arxiv情報
著者 | Shengming Yin,Chenfei Wu,Huan Yang,Jianfeng Wang,Xiaodong Wang,Minheng Ni,Zhengyuan Yang,Linjie Li,Shuguang Liu,Fan Yang,Jianlong Fu,Gong Ming,Lijuan Wang,Zicheng Liu,Houqiang Li,Nan Duan |
発行日 | 2023-03-22 07:10:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google