I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

要約

ビデオ合成は、拡散モデルの急速な発展の恩恵を受けて、最近目覚ましい進歩を遂げています。
ただし、意味の正確さ、明瞭さ、時空間的連続性の点で依然として課題に直面しています。
これらは主に、適切に調整されたテキストとビデオのデータの不足と、ビデオに固有の複雑な構造によって発生し、モデルが意味論的および定性的な卓越性を同時に保証することが困難になります。
このレポートでは、これら 2 つの要素を分離することでモデルのパフォーマンスを向上させ、重要なガイダンスの形式として静的画像を利用することで入力データの位置合わせを保証するカスケード I2VGen-XL アプローチを提案します。
I2VGen-XL は 2 つのステージで構成されます。i) 基本ステージでは、一貫したセマンティクスを保証し、2 つの階層エンコーダーを使用して入力画像のコンテンツを保存します。ii) 改良ステージでは、追加の短いテキストを組み込むことでビデオの詳細を強化し、解像度を 1280 に向上します。
$\times$720。
多様性を向上させるために、約 3,500 万のシングルショットのテキストとビデオのペアと 60 億のテキストと画像のペアを収集してモデルを最適化します。
これにより、I2VGen-XL は、生成されたビデオのセマンティック精度、詳細の連続性、鮮明さを同時に向上させることができます。
広範な実験を通じて、私たちは I2VGen-XL の基礎となる原理を調査し、それをさまざまなデータに対する有効性を実証できる現在のトップメソッドと比較しました。
ソース コードとモデルは \url{https://i2vgen-xl.github.io} で公開されます。

要約(オリジナル)

Video synthesis has recently made remarkable strides benefiting from the rapid development of diffusion models. However, it still encounters challenges in terms of semantic accuracy, clarity and spatio-temporal continuity. They primarily arise from the scarcity of well-aligned text-video data and the complex inherent structure of videos, making it difficult for the model to simultaneously ensure semantic and qualitative excellence. In this report, we propose a cascaded I2VGen-XL approach that enhances model performance by decoupling these two factors and ensures the alignment of the input data by utilizing static images as a form of crucial guidance. I2VGen-XL consists of two stages: i) the base stage guarantees coherent semantics and preserves content from input images by using two hierarchical encoders, and ii) the refinement stage enhances the video’s details by incorporating an additional brief text and improves the resolution to 1280$\times$720. To improve the diversity, we collect around 35 million single-shot text-video pairs and 6 billion text-image pairs to optimize the model. By this means, I2VGen-XL can simultaneously enhance the semantic accuracy, continuity of details and clarity of generated videos. Through extensive experiments, we have investigated the underlying principles of I2VGen-XL and compared it with current top methods, which can demonstrate its effectiveness on diverse data. The source code and models will be publicly available at \url{https://i2vgen-xl.github.io}.

arxiv情報

著者 Shiwei Zhang,Jiayu Wang,Yingya Zhang,Kang Zhao,Hangjie Yuan,Zhiwu Qin,Xiang Wang,Deli Zhao,Jingren Zhou
発行日 2023-11-07 17:16:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク