Animate Your Motion: Turning Still Images into Dynamic Videos

要約

近年、拡散モデルはテキストからビデオへの生成において目覚ましい進歩を遂げており、ユーザーの意図をより正確に反映するためのビデオ出力の制御強化の探求を引き起こしています。
従来の取り組みは主に、画像や深度マップなどのセマンティック キュー、または移動するスケッチやオブジェクトの境界ボックスなどのモーション ベースの条件の採用に焦点を当てていました。
セマンティック入力は豊富なシーン コンテキストを提供しますが、詳細なモーション固有性はありません。
逆に、モーション入力は正確な軌道情報を提供しますが、より広範な意味論的な物語を見逃します。
図 1 に示すように、ビデオ生成の拡散モデル内にセマンティック キューとモーション キューの両方を初めて統合しました。この目的のために、マルチモーダル入力を管理するための新しい方法論であるシーンとモーションの条件付き拡散 (SMCD) を導入します。
これには、認知されたモーション コンディショニング モジュールが組み込まれており、シーンの条件を統合するためのさまざまなアプローチを調査し、異なるモダリティ間の相乗効果を促進します。
モデルのトレーニングでは、2 つのモダリティの条件を分離し、2 段階のトレーニング パイプラインを導入します。
実験結果は、私たちの設計がビデオ品質、モーション精度、およびセマンティック一貫性を大幅に向上させることを示しています。

要約(オリジナル)

In recent years, diffusion models have made remarkable strides in text-to-video generation, sparking a quest for enhanced control over video outputs to more accurately reflect user intentions. Traditional efforts predominantly focus on employing either semantic cues, like images or depth maps, or motion-based conditions, like moving sketches or object bounding boxes. Semantic inputs offer a rich scene context but lack detailed motion specificity; conversely, motion inputs provide precise trajectory information but miss the broader semantic narrative. For the first time, we integrate both semantic and motion cues within a diffusion model for video generation, as demonstrated in Fig 1. To this end, we introduce the Scene and Motion Conditional Diffusion (SMCD), a novel methodology for managing multimodal inputs. It incorporates a recognized motion conditioning module and investigates various approaches to integrate scene conditions, promoting synergy between different modalities. For model training, we separate the conditions for the two modalities, introducing a two-stage training pipeline. Experimental results demonstrate that our design significantly enhances video quality, motion precision, and semantic coherence.

arxiv情報

著者 Mingxiao Li,Bo Wan,Marie-Francine Moens,Tinne Tuytelaars
発行日 2024-07-15 14:50:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク