VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM

要約

拡散モデルにおける最近の技術革新と画期的な進歩により、指定されたプロンプトに対して高品質のビデオを生成する可能性が大幅に拡大しました。
既存の作品のほとんどは、単一の背景で 1 つのビデオ イベントのみが発生する単一シーンのシナリオに取り組んでいます。
ただし、マルチシーン ビデオを生成するように拡張することは簡単ではなく、ビデオ シーン全体で主要なコンテンツの一貫した外観を維持しながら、その間のロジックを適切に管理する必要があります。
この論文では、コンテンツ一貫性のあるマルチシーンビデオ生成のための新しいフレームワーク、つまり VideoDrafter を提案します。
技術的には、VideoDrafter は大規模言語モデル (LLM) を活用して、入力プロンプトを包括的なマルチシーン スクリプトに変換し、LLM によって学習された論理知識を活用します。
各シーンのスクリプトには、イベント、前景/背景エンティティ、カメラの動きを説明するプロンプトが含​​まれています。
VideoDrafter はスクリプト全体で共通のエンティティを特定し、LLM に各エンティティの詳細を要求します。
結果として得られるエンティティの説明は、テキストから画像へのモデルに入力されて、各エンティティの参照画像が生成されます。
最後に、VideoDrafter は、参照画像、イベントの説明プロンプト、およびカメラの動きを考慮した拡散プロセスを介して各シーンのビデオを生成することにより、マルチシーン ビデオを出力します。
拡散モデルには、マルチシーン ビデオのコンテンツの一貫性を強化するための条件と調整として参照画像が組み込まれています。
広範な実験により、VideoDrafter がビジュアル品質、コンテンツの一貫性、およびユーザーの好みの点で SOTA ビデオ生成モデルよりも優れていることが実証されました。

要約(オリジナル)

The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoDrafter, for content-consistent multi-scene video generation. Technically, VideoDrafter leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoDrafter identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoDrafter outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoDrafter outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference.

arxiv情報

著者 Fuchen Long,Zhaofan Qiu,Ting Yao,Tao Mei
発行日 2024-01-02 15:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク