VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning

要約

最近のテキストからビデオへの (T2V) 生成方法は大幅な進歩を遂げていますが、これらの作品のほとんどは、単一の背景を持つ単一のイベントの短いビデオ クリップ (つまり、単一シーンのビデオ) を作成することに重点を置いています。
一方、最近の大規模言語モデル (LLM) は、画像生成モデルなどの下流のビジュアル モジュールを制御するレイアウトやプログラムを生成する機能を実証しています。
これにより、重要な疑問が生じます。これらの LLM に組み込まれた知識を利用して、時間的に一貫した長いビデオを生成できるでしょうか?
この論文では、ビデオ コンテンツの計画と根拠のあるビデオ生成に LLM の知識を使用する、一貫したマルチシーン ビデオ生成のための新しいフレームワークである VideoDirectorGPT を提案します。
具体的には、単一のテキスト プロンプトが与えられると、まずビデオ プランナー LLM (GPT-4) にそれを「ビデオ プラン」に拡張するよう依頼します。これには、シーンの説明、それぞれのレイアウトを持つエンティティ、各シーンの背景、
エンティティと背景の一貫性のあるグループ化。
次に、ビデオ プランナーからのこの出力に基づいて、ビデオ ジェネレーターである Layout2Vid は空間レイアウトを明示的に制御し、画像レベルの注釈のみでトレーニングしながら、シーン全体でエンティティ/背景の時間的一貫性を維持できます。
私たちの実験は、VideoDirectorGPT フレームワークが単一シーンとマルチシーンの両方のビデオ生成におけるレイアウトと動きの制御を大幅に改善し、オープンドメインのシングルシーン T2V 生成で SOTA と競合するパフォーマンスを達成しながら、シーン間で視覚的に一貫したマルチシーン ビデオを生成できることを実証しています。

また、フレームワークがレイアウト ガイダンスの強度を動的に制御でき、ユーザーが提供した画像を使用してビデオを生成できることも示します。
私たちのフレームワークが、LLM の計画能力を一貫した長いビデオの生成にうまく統合するという将来の取り組みにインスピレーションを与えることができれば幸いです。

要約(オリジナル)

Although recent text-to-video (T2V) generation methods have seen significant advancements, most of these works focus on producing short video clips of a single event with a single background (i.e., single-scene videos). Meanwhile, recent large language models (LLMs) have demonstrated their capability in generating layouts and programs to control downstream visual modules such as image generation models. This raises an important question: can we leverage the knowledge embedded in these LLMs for temporally consistent long video generation? In this paper, we propose VideoDirectorGPT, a novel framework for consistent multi-scene video generation that uses the knowledge of LLMs for video content planning and grounded video generation. Specifically, given a single text prompt, we first ask our video planner LLM (GPT-4) to expand it into a ‘video plan’, which involves generating the scene descriptions, the entities with their respective layouts, the background for each scene, and consistency groupings of the entities and backgrounds. Next, guided by this output from the video planner, our video generator, Layout2Vid, has explicit control over spatial layouts and can maintain temporal consistency of entities/backgrounds across scenes, while only trained with image-level annotations. Our experiments demonstrate that VideoDirectorGPT framework substantially improves layout and movement control in both single- and multi-scene video generation and can generate multi-scene videos with visual consistency across scenes, while achieving competitive performance with SOTAs in open-domain single-scene T2V generation. We also demonstrate that our framework can dynamically control the strength for layout guidance and can also generate videos with user-provided images. We hope our framework can inspire future work on better integrating the planning ability of LLMs into consistent long video generation.

arxiv情報

著者 Han Lin,Abhay Zala,Jaemin Cho,Mohit Bansal
発行日 2023-09-26 17:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク