要約
Text-to-Video モデルは、多様で魅力的なビデオ コンテンツを生成する優れた機能を実証し、生成 AI の顕著な進歩を示しています。
ただし、これらのモデルは一般に、動作パターンに対するきめ細かい制御が不足しており、実際の適用性が制限されています。
ビデオ拡散モデルでのモーション転送のために設計された新しいフレームワークである MotionFlow を紹介します。
私たちの手法では、クロスアテンション マップを利用して空間的および時間的ダイナミクスを正確にキャプチャおよび操作し、さまざまなコンテキスト間でのシームレスなモーション転送を可能にします。
私たちのアプローチはトレーニングを必要とせず、事前トレーニングされたビデオ拡散モデルの固有の機能を活用することで、テスト時に動作します。
一貫した動きを維持しながら包括的なシーンの変更に取り組む従来のアプローチとは対照的に、MotionFlow はその注意ベースのメカニズムを通じてそのような複雑な変換をうまく処理します。
私たちの定性的および定量的な実験により、MotionFlow は、シーンの大幅な変更時であっても、忠実性と汎用性の両方において既存のモデルよりも大幅に優れていることが実証されました。
要約(オリジナル)
Text-to-video models have demonstrated impressive capabilities in producing diverse and captivating video content, showcasing a notable advancement in generative AI. However, these models generally lack fine-grained control over motion patterns, limiting their practical applicability. We introduce MotionFlow, a novel framework designed for motion transfer in video diffusion models. Our method utilizes cross-attention maps to accurately capture and manipulate spatial and temporal dynamics, enabling seamless motion transfers across various contexts. Our approach does not require training and works on test-time by leveraging the inherent capabilities of pre-trained video diffusion models. In contrast to traditional approaches, which struggle with comprehensive scene changes while maintaining consistent motion, MotionFlow successfully handles such complex transformations through its attention-based mechanism. Our qualitative and quantitative experiments demonstrate that MotionFlow significantly outperforms existing models in both fidelity and versatility even during drastic scene alterations.
arxiv情報
著者 | Tuna Han Salih Meral,Hidir Yesiltepe,Connor Dunlop,Pinar Yanardag |
発行日 | 2024-12-06 18:59:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google