DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation

要約

複数の相互作用エンティティと正確な空間的関係を備えた動的シーンを合成する必要がある構成テキストからビデオへの生成は、拡散ベースのモデルにとって重要な課題のままです。
既存の方法は、レイアウトの不連続性、エンティティのアイデンティティドリフト、および制約のない交差に関するメカニズムと不十分な物理的認識の推論により、信じられない相互作用のダイナミクスと闘っています。
これらの制限に対処するために、フレーム認識制御を介して既製のテキストからビデオへのテキストモデル(cogvideox-5bなど)を強化する\ textbf {トレーニングフリー}フレームワーク、dyst-xlを提案します。
DYST-XLは3つの重要なイノベーションを統合します。(1)大規模な言語モデル(LLM)を活用して、入力プロンプトをエンティティアトリブグラフに解析し、物理学を認識するキーフレームレイアウトを生成する動的なレイアウトプランナー。
(2)フレーム認識の注意マスキングを通じてローカライズされたテキストビデオアライメントを強制し、個々のエンティティを正確に制御することを実現するデュアルプロンプト制御の注意メカニズム。
(3)最初のフレームの特徴を伝播するエンティティの整合性制約戦略。除去中に後続のフレームに埋め込みを拡張し、手動注釈なしでオブジェクトのアイデンティティを保存します。
実験は、DYST-XLが組成テキストからビデオへの生成に優れており、複雑なプロンプトのパフォーマンスを大幅に改善し、トレーニングのないビデオ統合の重要なギャップを埋めることを示しています。

要約(オリジナル)

Compositional text-to-video generation, which requires synthesizing dynamic scenes with multiple interacting entities and precise spatial-temporal relationships, remains a critical challenge for diffusion-based models. Existing methods struggle with layout discontinuity, entity identity drift, and implausible interaction dynamics due to unconstrained cross-attention mechanisms and inadequate physics-aware reasoning. To address these limitations, we propose DyST-XL, a \textbf{training-free} framework that enhances off-the-shelf text-to-video models (e.g., CogVideoX-5B) through frame-aware control. DyST-XL integrates three key innovations: (1) A Dynamic Layout Planner that leverages large language models (LLMs) to parse input prompts into entity-attribute graphs and generates physics-aware keyframe layouts, with intermediate frames interpolated via trajectory optimization; (2) A Dual-Prompt Controlled Attention Mechanism that enforces localized text-video alignment through frame-aware attention masking, achieving the precise control over individual entities; and (3) An Entity-Consistency Constraint strategy that propagates first-frame feature embeddings to subsequent frames during denoising, preserving object identity without manual annotation. Experiments demonstrate that DyST-XL excels in compositional text-to-video generation, significantly improving performance on complex prompts and bridging a crucial gap in training-free video synthesis.

arxiv情報

著者 Weijie He,Mushui Liu,Yunlong Yu,Zhao Wang,Chao Wu
発行日 2025-04-21 11:41:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク