MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

要約

我々は、高度な制御可能な画像アニメーション手法である MOFA-Video を紹介します。これは、さまざまな追加の制御可能な信号 (人間のランドマーク参照、手動の軌跡、さらには提供されたビデオなど) またはそれらの組み合わせを使用して、指定された画像からビデオを生成します。
これは、特定の運動領域でのみ機能したり、事前の拡散で弱い制御能力を示したりする以前の方法とは異なります。
私たちの目標を達成するために、ビデオ生成パイプラインで生成されたモーションを制御するために、いくつかのドメイン対応モーション フィールド アダプター (つまり、MOFA アダプター) を設計します。
MOFA アダプターの場合、ビデオの時間的な動きの一貫性を考慮し、最初に与えられたスパース制御条件から密な動きフローを生成し、次に、与えられた画像のマルチスケール特徴が、安定したビデオ拡散のためのガイド付き特徴としてラップされます。
世代。
手動軌道と人間のランドマークの 2 つのモーション アダプターを個別に単純にトレーニングします。これは、どちらにもコントロールに関するまばらな情報が含まれているためです。
トレーニング後は、さまざまなドメインの MOFA アダプターが連携して、より制御しやすいビデオ生成を行うこともできます。

要約(オリジナル)

We present MOFA-Video, an advanced controllable image animation method that generates video from the given image using various additional controllable signals (such as human landmarks reference, manual trajectories, and another even provided video) or their combinations. This is different from previous methods which only can work on a specific motion domain or show weak control abilities with diffusion prior. To achieve our goal, we design several domain-aware motion field adapters (\ie, MOFA-Adapters) to control the generated motions in the video generation pipeline. For MOFA-Adapters, we consider the temporal motion consistency of the video and generate the dense motion flow from the given sparse control conditions first, and then, the multi-scale features of the given image are wrapped as a guided feature for stable video diffusion generation. We naively train two motion adapters for the manual trajectories and the human landmarks individually since they both contain sparse information about the control. After training, the MOFA-Adapters in different domains can also work together for more controllable video generation.

arxiv情報

著者 Muyao Niu,Xiaodong Cun,Xintao Wang,Yong Zhang,Ying Shan,Yinqiang Zheng
発行日 2024-05-30 16:22:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク