Controllable Longer Image Animation with Diffusion Models

要約

静止画像からリアルなアニメーション ビデオを生成することは、コンピューター ビジョンの重要な研究分野です。
物理シミュレーションと動きの予測に基づく方法は顕著な進歩を遂げていますが、多くの場合、特定のオブジェクトのテクスチャや動きの軌跡に限定されており、非常に複雑な環境や物理的な力学を示すことができません。
この論文では、ビデオ拡散モデルを備えたモーション事前分布を使用した、オープンドメインで制御可能な画像アニメーション手法を紹介します。
私たちの手法では、動画から運動場の情報を抽出し、運動の軌跡や強さを学習することで、可動領域の運動の方向と速度を正確に制御します。
現在の事前トレーニング済みビデオ生成モデルは通常、非常に短いビデオ (通常は 30 フレーム未満) の生成に制限されています。
対照的に、私たちは、画像アニメーションタスクに特化して調整されたノイズ再スケジュールに基づいた効率的な長時間ビデオ生成方法を提案します。これにより、コンテンツの風景とモーションの調整の一貫性を維持しながら、長さ100フレームを超えるビデオの作成が容易になります。
具体的には、ノイズ除去プロセスを、シーンの輪郭の形成とモーションの詳細の調整という 2 つの異なるフェーズに分解します。
次に、長距離ノイズ相関を維持しながら、生成されたフレーム シーケンスを制御するためにノイズを再スケジュールします。
私たちは、商用ツールと学術的方法論の両方を網羅する 10 のベースラインを使用して広範な実験を実施し、私たちの方法の優位性を実証しました。
私たちのプロジェクト ページ: \url{https://wangqiang9.github.io/Controllable.github.io/}

要約(オリジナル)

Generating realistic animated videos from static images is an important area of research in computer vision. Methods based on physical simulation and motion prediction have achieved notable advances, but they are often limited to specific object textures and motion trajectories, failing to exhibit highly complex environments and physical dynamics. In this paper, we introduce an open-domain controllable image animation method using motion priors with video diffusion models. Our method achieves precise control over the direction and speed of motion in the movable region by extracting the motion field information from videos and learning moving trajectories and strengths. Current pretrained video generation models are typically limited to producing very short videos, typically less than 30 frames. In contrast, we propose an efficient long-duration video generation method based on noise reschedule specifically tailored for image animation tasks, facilitating the creation of videos over 100 frames in length while maintaining consistency in content scenery and motion coordination. Specifically, we decompose the denoise process into two distinct phases: the shaping of scene contours and the refining of motion details. Then we reschedule the noise to control the generated frame sequences maintaining long-distance noise correlation. We conducted extensive experiments with 10 baselines, encompassing both commercial tools and academic methodologies, which demonstrate the superiority of our method. Our project page: \url{https://wangqiang9.github.io/Controllable.github.io/}

arxiv情報

著者 Qiang Wang,Minghua Liu,Junjun Hu,Fan Jiang,Mu Xu
発行日 2024-05-27 16:08:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク