Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation

要約

大規模な事前トレーニングされたテキストからビデオへの拡散モデル (VDM) の領域では、大幅な進歩が達成されました。
ただし、これまでの方法は、高い計算コストを伴うピクセルベースの VDM のみに依存するか、または正確なテキストとビデオの位置合わせに苦労することが多い潜在ベースの VDM に依存していました。
この論文では、テキストからビデオへの生成のためにピクセルベースと潜在ベースの VDM を組み合わせた、Show-1 と呼ばれるハイブリッド モデルを初めて提案します。
私たちのモデルはまずピクセルベースの VDM を使用して、テキストとビデオの相関が強い低解像度ビデオを生成します。
その後、潜在ベースの VDM を使用して低解像度ビデオを高解像度にさらにアップサンプリングする、新しいエキスパート翻訳方法を提案します。
潜在的な VDM と比較して、Show-1 はテキストとビデオが正確に配置された高品質のビデオを生成できます。
ピクセル VDM と比較すると、Show-1 ははるかに効率的です (推論中の GPU メモリ使用量は 15G 対 72G)。
また、標準のビデオ生成ベンチマークでもモデルを検証します。
コードとモデルの重みは \url{https://github.com/showlab/Show-1} ​​で公開されています。

要約(オリジナル)

Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). We also validate our model on standard video generation benchmarks. Our code and model weights are publicly available at \url{https://github.com/showlab/Show-1}.

arxiv情報

著者 David Junhao Zhang,Jay Zhangjie Wu,Jia-Wei Liu,Rui Zhao,Lingmin Ran,Yuchao Gu,Difei Gao,Mike Zheng Shou
発行日 2023-09-27 17:44:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク