DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance

要約

与えられた参照画像からビデオを生成することを目的とした Image-to-Video 生成は、大きな注目を集めています。
既存の方法では、事前トレーニングされたテキストガイド付き画像拡散モデルを画像ガイド付きビデオ生成モデルに拡張しようとしています。
それにもかかわらず、これらの方法は、浅い画像誘導と時間的一貫性の低下に制限があるため、時間の経過とともに忠実度が低くなったり、ちらつきが発生したりすることがよくあります。
これらの問題に取り組むために、DreamVideo という名前の事前トレーニングされたビデオ拡散モデルに基づいてフレーム保持ブランチを考案することにより、忠実度の高い画像からビデオへの生成方法を提案します。
参照画像をセマンティック レベルで拡散プロセスに統合する代わりに、DreamVideo は畳み込み層を介して参照画像を認識し、特徴をモデル入力としてノイズの多い潜在と連結します。
これにより、参照画像の詳細を最大限に保存することができます。
さらに、二重条件分類子を使用しないガイダンスを組み込むことで、さまざまなプロンプト テキストを提供することで、1 つの画像をさまざまなアクションのビデオに誘導することができます。
これは、制御可能なビデオ生成に重大な影響を及ぼし、幅広い応用の可能性を秘めています。
私たちは公開データセットに対して包括的な実験を実施しており、定量的および定性的な結果の両方で、私たちの方法が最先端の方法よりも優れていることが示されています。
特に忠実度に関しては、当社のモデルは強力な画像保持能力を備えており、当社の知る限り、他の画像からビデオへのモデルと比較して UCF101 で最高の結果をもたらします。
また、さまざまなテキスト プロンプトを表示することで、正確な制御を実現できます。
私たちのモデルの詳細と包括的な結果は、https://anonymous0769.github.io/DreamVideo/ で紹介されます。

要約(オリジナル)

Image-to-video generation, which aims to generate a video starting from a given reference image, has drawn great attention. Existing methods try to extend pre-trained text-guided image diffusion models to image-guided video generation models. Nevertheless, these methods often result in either low fidelity or flickering over time due to their limitation to shallow image guidance and poor temporal consistency. To tackle these problems, we propose a high-fidelity image-to-video generation method by devising a frame retention branch based on a pre-trained video diffusion model, named DreamVideo. Instead of integrating the reference image into the diffusion process at a semantic level, our DreamVideo perceives the reference image via convolution layers and concatenates the features with the noisy latents as model input. By this means, the details of the reference image can be preserved to the greatest extent. In addition, by incorporating double-condition classifier-free guidance, a single image can be directed to videos of different actions by providing varying prompt texts. This has significant implications for controllable video generation and holds broad application prospects. We conduct comprehensive experiments on the public dataset, and both quantitative and qualitative results indicate that our method outperforms the state-of-the-art method. Especially for fidelity, our model has a powerful image retention ability and delivers the best results in UCF101 compared to other image-to-video models to our best knowledge. Also, precise control can be achieved by giving different text prompts. Further details and comprehensive results of our model will be presented in https://anonymous0769.github.io/DreamVideo/.

arxiv情報

著者 Cong Wang,Jiaxi Gu,Panwen Hu,Songcen Xu,Hang Xu,Xiaodan Liang
発行日 2024-09-16 16:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク