Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

要約

最近のテキストから映像への拡散モデルは目覚しい進歩を遂げている。実際には、ユーザは、カスタマイズされたビデオ作成のために、オブジェクトの動きとカメラの動きを独立して制御する能力を望むことが多い。しかし、現在の手法では、オブジェクトの動きとカメラの動きを分離して制御することに焦点が当てられていないため、テキストから動画へのモデルの制御性と柔軟性が制限されている。本論文では、ユーザが1つまたは複数のオブジェクトの動きやカメラの動きを個別に指定し、動画を演出するようなことができるシステム、Direct-a-Videoを紹介する。我々は、オブジェクトの動きとカメラの動きを分離して制御する、シンプルで効果的な戦略を提案する。オブジェクトの動きは、モデル固有の事前分布を利用した空間交差注意変調によって制御され、追加の最適化は必要ない。カメラの動きに対しては、定量的なカメラの動きパラメータを解釈するために、新しい時間的交差注意レイヤーを導入する。さらに、これらのレイヤーを小規模なデータセット上で自己教師ありの方法で学習するために、拡張ベースのアプローチを採用し、明示的な動きの注釈を不要にする。両コンポーネントは独立して動作し、個別または複合的な制御が可能であり、オープンドメインのシナリオに一般化できる。広範な実験により、我々の手法の優位性と有効性が実証された。プロジェクトページ: https://direct-a-video.github.io/.

要約(オリジナル)

Recent text-to-video diffusion models have achieved impressive progress. In practice, users often desire the ability to control object motion and camera movement independently for customized video creation. However, current methods lack the focus on separately controlling object motion and camera movement in a decoupled manner, which limits the controllability and flexibility of text-to-video models. In this paper, we introduce Direct-a-Video, a system that allows users to independently specify motions for one or multiple objects and/or camera movements, as if directing a video. We propose a simple yet effective strategy for the decoupled control of object motion and camera movement. Object motion is controlled through spatial cross-attention modulation using the model’s inherent priors, requiring no additional optimization. For camera movement, we introduce new temporal cross-attention layers to interpret quantitative camera movement parameters. We further employ an augmentation-based approach to train these layers in a self-supervised manner on a small-scale dataset, eliminating the need for explicit motion annotation. Both components operate independently, allowing individual or combined control, and can generalize to open-domain scenarios. Extensive experiments demonstrate the superiority and effectiveness of our method. Project page: https://direct-a-video.github.io/.

arxiv情報

著者 Shiyuan Yang,Liang Hou,Haibin Huang,Chongyang Ma,Pengfei Wan,Di Zhang,Xiaodong Chen,Jing Liao
発行日 2024-02-05 16:30:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク