要約
ストーリーテリング ビデオ生成 (SVG) は、入力テキスト スクリプトで記述されたストーリーを一貫して表現する、長いマルチモーション、マルチシーンのビデオを作成するタスクとして最近登場しました。
SVG は、メディアやエンターテイメントにおける多様なコンテンツ作成に大きな可能性を秘めています。
ただし、これには重大な課題も存在します。(1) オブジェクトは一連のきめの細かい複雑な動きを示さなければならない、(2) 複数のオブジェクトはシーン全体で一貫して表示される必要がある、(3) 被写体は、シーン内でシームレスなトランジションを持つ複数のモーションを必要とする場合があります。
単一のシーン。
これらの課題に対処するために、私たちはストーリーからビデオへの新しい生成方法である DreamRunner を提案します。まず、大規模言語モデル (LLM) を使用して入力スクリプトを構造化し、粗粒度のシーン計画と細粒度のオブジェクトの両方を容易にします。
レベルのレイアウトとモーションのプランニング。
次に、DreamRunner は、各シーン内のオブジェクトのターゲット モーション事前分布をキャプチャするための検索拡張テスト時間適応を提供し、取得したビデオに基づいて多様なモーションのカスタマイズをサポートし、複雑なスクリプト化されたモーションを含む新しいビデオの生成を容易にします。
最後に、きめの細かいオブジェクトと動きのバインディングとフレームごとのセマンティック制御のための、新しい時空間領域ベースの 3D アテンションと事前注入モジュール SR3AI を提案します。
DreamRunner をさまざまな SVG ベースラインと比較し、文字の一貫性、テキストの配置、スムーズな移行における最先端のパフォーマンスを実証します。
さらに、DreamRunner は、構成テキストからビデオへの生成において強力できめの細かい条件追従能力を示し、T2V-ComBench のベースラインを大幅に上回ります。
最後に、定性的な例を使用して、複数オブジェクトのインタラクションを生成する DreamRunner の強力な機能を検証します。
要約(オリジナル)
Storytelling video generation (SVG) has recently emerged as a task to create long, multi-motion, multi-scene videos that consistently represent the story described in the input text script. SVG holds great potential for diverse content creation in media and entertainment; however, it also presents significant challenges: (1) objects must exhibit a range of fine-grained, complex motions, (2) multiple objects need to appear consistently across scenes, and (3) subjects may require multiple motions with seamless transitions within a single scene. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner’s robust ability to generate multi-object interactions with qualitative examples.
arxiv情報
著者 | Zun Wang,Jialu Li,Han Lin,Jaehong Yoon,Mohit Bansal |
発行日 | 2024-11-25 18:41:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google