Large Language Models are Frame-level Directors for Zero-shot Text-to-Video Generation

要約

AI 生成コンテンツ (AIGC) のパラダイムでは、事前トレーニングされたテキストから画像への (T2I) モデルをテキストからビデオへの (T2V) 生成まで拡張することに注目が集まっています。
これらのフレームワークは、その有効性にもかかわらず、一貫した物語を維持し、単一のユーザー プロンプトからのシーン構成やオブジェクトの配置の急速な変化に対処するという課題に直面しています。
このペーパーでは、DirecT2V と呼ばれる新しいフレームワークを紹介します。このフレームワークは、命令調整された大規模言語モデル (LLM) を利用して、単一の抽象的なユーザー プロンプトからフレームごとの記述を生成します。
DirecT2V は、LLM ディレクターを利用してユーザー入力をフレームごとに個別のプロンプトに分割し、時間とともに変化するコンテンツを含めることを可能にし、一貫したビデオ生成を促進します。
時間的一貫性を維持し、オブジェクトの崩壊を防ぐために、新しい値マッピング方法とデュアル ソフトマックス フィルタリングを提案します。
広範な実験結果により、抽象的なユーザー プロンプトから視覚的に一貫性のあるビデオを生成し、ゼロショット ビデオ生成の課題に対処する DirecT2V フレームワークの有効性が検証されています。

要約(オリジナル)

In the paradigm of AI-generated content (AIGC), there has been increasing attention in extending pre-trained text-to-image (T2I) models to text-to-video (T2V) generation. Despite their effectiveness, these frameworks face challenges in maintaining consistent narratives and handling rapid shifts in scene composition or object placement from a single user prompt. This paper introduces a new framework, dubbed DirecT2V, which leverages instruction-tuned large language models (LLMs) to generate frame-by-frame descriptions from a single abstract user prompt. DirecT2V utilizes LLM directors to divide user inputs into separate prompts for each frame, enabling the inclusion of time-varying content and facilitating consistent video generation. To maintain temporal consistency and prevent object collapse, we propose a novel value mapping method and dual-softmax filtering. Extensive experimental results validate the effectiveness of the DirecT2V framework in producing visually coherent and consistent videos from abstract user prompts, addressing the challenges of zero-shot video generation.

arxiv情報

著者 Susung Hong,Junyoung Seo,Sunghwan Hong,Heeseong Shin,Seungryong Kim
発行日 2023-05-23 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク