要約
拡散モデルを用いたテキスト映像(T2V)生成における最近の進歩は、大きな注目を集めている。しかし、それらは通常、単一のオブジェクトと動きのあるシーンでうまく機能し、複数のオブジェクトと明確な動きのある合成シナリオでは、テキストプロンプトの意味内容を正確に反映するのに苦労しています。これらの課題を解決するために、我々は、T2Vモデルにおける複数の被写体とそのモーション、そしてテキストプロンプト間の意味的アライメントを改善する、プラグアンドプレイでトレーニング不要の手法である、୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛を提案する。StarVidはまず、テキストプロンプトに基づく2段階のモーション軌道計画のために、大規模言語モデル(LLM)の空間推論能力を活用する。このような軌跡は空間的な事前値として機能し、交差注意(CA)マップを特徴的な領域に再集中させるための空間認識損失を導く。さらに、動詞のCAマップと対応する名詞のCAマップの間の相関を強化し、運動と主語の結合を強化するために、構文に誘導された対照制約を提案する。定性的・定量的評価により、提案フレームワークがベースライン手法を大幅に上回り、意味的一貫性が改善された、より高品質な動画を提供することが実証された。
要約(オリジナル)
Recent advances in text-to-video (T2V) generation with diffusion models have garnered significant attention. However, they typically perform well in scenes with a single object and motion, struggling in compositional scenarios with multiple objects and distinct motions to accurately reflect the semantic content of text prompts. To address these challenges, we propose \textbf{StarVid}, a plug-and-play, training-free method that improves semantic alignment between multiple subjects, their motions, and text prompts in T2V models. StarVid first leverages the spatial reasoning capabilities of large language models (LLMs) for two-stage motion trajectory planning based on text prompts. Such trajectories serve as spatial priors, guiding a spatial-aware loss to refocus cross-attention (CA) maps into distinctive regions. Furthermore, we propose a syntax-guided contrastive constraint to strengthen the correlation between the CA maps of verbs and their corresponding nouns, enhancing motion-subject binding. Both qualitative and quantitative evaluations demonstrate that the proposed framework significantly outperforms baseline methods, delivering videos of higher quality with improved semantic consistency.
arxiv情報
著者 | Yuanhang Li,Qi Mao,Lan Chen,Zhen Fang,Lei Tian,Xinyan Xiao,Libiao Jin,Hua Wu |
発行日 | 2025-03-03 15:01:03+00:00 |
arxivサイト | arxiv_id(pdf) |