DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation

要約

AI 生成コンテンツ (AIGC) のパラダイムでは、事前トレーニングされたテキストから画像への (T2I) モデルからテキストからビデオへの (T2V) 生成への知識の移転への注目が高まっています。
これらのフレームワークは、その有効性にもかかわらず、一貫した物語を維持し、単一の抽象的なユーザー プロンプトからのシーン構成やオブジェクトの配置の変化に対処するという課題に直面しています。
この文書では、時間依存のフレームごとのプロンプトを生成する大規模言語モデル (LLM) の機能を調査し、DirecT2V と呼ばれる新しいフレームワークを紹介します。
DirecT2V は、命令調整された LLM をディレクターとして活用し、時間とともに変化するコンテンツを含めることを可能にし、一貫したビデオ生成を促進します。
時間的な一貫性を維持し、値が別のオブジェクトにマッピングされるのを防ぐために、追加のトレーニングを必要としない新しい値マッピング方法とデュアル ソフトマックス フィルタリングを拡散モデルに装備します。
実験結果は、抽象的なユーザー プロンプトから視覚的に一貫性のあるストーリー性のあるビデオを生成するフレームワークの有効性を検証し、ゼロショット ビデオ生成の課題にうまく対処しました。

要約(オリジナル)

In the paradigm of AI-generated content (AIGC), there has been increasing attention to transferring knowledge from pre-trained text-to-image (T2I) models to text-to-video (T2V) generation. Despite their effectiveness, these frameworks face challenges in maintaining consistent narratives and handling shifts in scene composition or object placement from a single abstract user prompt. Exploring the ability of large language models (LLMs) to generate time-dependent, frame-by-frame prompts, this paper introduces a new framework, dubbed DirecT2V. DirecT2V leverages instruction-tuned LLMs as directors, enabling the inclusion of time-varying content and facilitating consistent video generation. To maintain temporal consistency and prevent mapping the value to a different object, we equip a diffusion model with a novel value mapping method and dual-softmax filtering, which do not require any additional training. The experimental results validate the effectiveness of our framework in producing visually coherent and storyful videos from abstract user prompts, successfully addressing the challenges of zero-shot video generation.

arxiv情報

著者 Susung Hong,Junyoung Seo,Heeseong Shin,Sunghwan Hong,Seungryong Kim
発行日 2024-02-06 18:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク