MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

要約

ビデオ内の動きは主に、カメラの動きによって引き起こされるカメラの動きと、オブジェクトの動きによって生じるオブジェクトの動きで構成されます。
ビデオ生成には、カメラとオブジェクトの両方の動きを正確に制御することが不可欠です。
しかし、既存の作品は主に 1 種類の動作に焦点を当てているか、2 つを明確に区別していないため、制御能力と多様性が制限されています。
したがって、このホワイトペーパーでは、カメラとオブジェクトのモーションを効果的かつ独立して制御するように設計された、ビデオ生成用の統合された柔軟なモーション コントローラーである MotionCtrl について説明します。
MotionCtrl のアーキテクチャとトレーニング戦略は、カメラの動き、オブジェクトの動き、不完全なトレーニング データの固有の特性を考慮して慎重に考案されています。
以前の方法と比較して、MotionCtrl には次の 3 つの主な利点があります。 1) カメラの動きとオブジェクトの動きを効果的かつ独立して制御するため、よりきめ細かいモーション制御が可能になり、両方のタイプの動きの柔軟で多様な組み合わせが容易になります。
2) その動作条件はカメラのポーズと軌道によって決定され、外観はなく、生成されたビデオ内のオブジェクトの外観や形状への影響は最小限に抑えられます。
3) これは、一度トレーニングすると、幅広いカメラのポーズや軌道に適応できる比較的一般化可能なモデルです。
既存の方法に対する MotionCtrl の優位性を実証するために、広範な定性的および定量的実験が実施されました。
プロジェクトページ: https://wzhouxiff.github.io/projects/MotionCtrl/

要約(オリジナル)

Motions in a video primarily consist of camera motion, induced by camera movement, and object motion, resulting from object movement. Accurate control of both camera and object motion is essential for video generation. However, existing works either mainly focus on one type of motion or do not clearly distinguish between the two, limiting their control capabilities and diversity. Therefore, this paper presents MotionCtrl, a unified and flexible motion controller for video generation designed to effectively and independently control camera and object motion. The architecture and training strategy of MotionCtrl are carefully devised, taking into account the inherent properties of camera motion, object motion, and imperfect training data. Compared to previous methods, MotionCtrl offers three main advantages: 1) It effectively and independently controls camera motion and object motion, enabling more fine-grained motion control and facilitating flexible and diverse combinations of both types of motion. 2) Its motion conditions are determined by camera poses and trajectories, which are appearance-free and minimally impact the appearance or shape of objects in generated videos. 3) It is a relatively generalizable model that can adapt to a wide array of camera poses and trajectories once trained. Extensive qualitative and quantitative experiments have been conducted to demonstrate the superiority of MotionCtrl over existing methods. Project Page: https://wzhouxiff.github.io/projects/MotionCtrl/

arxiv情報

著者 Zhouxia Wang,Ziyang Yuan,Xintao Wang,Tianshui Chen,Menghan Xia,Ping Luo,Ying Shan
発行日 2024-07-16 17:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク