要約
ストーリーテリングビデオジェネレーション(SVG)は、構造化された物語に続く一貫した視覚的に豊富なマルチシーンビデオを作成することを目指しています。
既存の方法は、主に高レベルの計画にLLMを使用して、シーンレベルの説明にストーリーを分解し、それが独立して生成され、縫い合わされます。
ただし、これらのアプローチは、複雑な文字とイベントの一貫した構成、複雑なモーション合成、およびMuti-Characterのカスタマイズを視覚化するため、複雑なシングルシーンの説明に合わせた高品質のビデオの生成に苦労しています。
これらの課題に対処するために、斬新なストーリーからビデオへの生成方法であるDreamRunnerを提案します。まず、大規模な言語モデル(LLM)を使用して入力スクリプトを構成して、粗粒のシーン計画ときめの粒度のオブジェクトレベルのレイアウトとモーション計画の両方を促進します。
次に、DreamRunnerは、検索されたテスト時間の適応を提示して、各シーンのオブジェクトのターゲットモーションプライアーをキャプチャし、取得したビデオに基づいた多様なモーションのカスタマイズをサポートし、複雑でスクリプト化されたモーションを使用した新しいビデオの生成を促進します。
最後に、微細なオブジェクトモーション結合とフレームごとのセマンティックコントロールのための、新しい空間的領域ベースの3D注意および以前の注入モジュールSR3AIを提案します。
DreamRunnerをさまざまなSVGベースラインと比較し、キャラクターの一貫性、テキストアライメント、およびスムーズな遷移の最先端のパフォーマンスを示しています。
さらに、DreamRunnerは、組成のテキストからビデオへの生成において、強力なきめの細かい状態フォロー能力を示し、T2V-Combenchのベースラインを大幅に上回っています。
最後に、定性的例とマルチオブジェクトの相互作用を生成するDreamRunnerの堅牢な能力を検証します。
要約(オリジナル)
Storytelling video generation (SVG) aims to produce coherent and visually rich multi-scene videos that follow a structured narrative. Existing methods primarily employ LLM for high-level planning to decompose a story into scene-level descriptions, which are then independently generated and stitched together. However, these approaches struggle with generating high-quality videos aligned with the complex single-scene description, as visualizing such complex description involves coherent composition of multiple characters and events, complex motion synthesis and muti-character customization. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner’s robust ability to generate multi-object interactions with qualitative examples.
arxiv情報
著者 | Zun Wang,Jialu Li,Han Lin,Jaehong Yoon,Mohit Bansal |
発行日 | 2025-03-18 15:19:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google