MotionDirector: Motion Customization of Text-to-Video Diffusion Models

要約

大規模な事前トレーニングされた拡散モデルは、さまざまなビデオ世代で優れた機能を発揮してきました。
同じモーションコンセプトの一連のビデオクリップが与えられた場合、モーションカスタマイズのタスクは、既存のテキストからビデオへの拡散モデルを適応させて、このモーションを含むビデオを生成することです。
たとえば、特定のカメラの動きで車が所定の動きをする動画を生成して映画を作成したり、クマが重りを持ち上げる様子を示す動画を作成してクリエイターにインスピレーションを与えたりします。
適応方法は、被写体やスタイルなどの外観をカスタマイズするために開発されてきましたが、動きについてはまだ解明されていません。
フルモデルのチューニング、追加レイヤーのパラメータ効率の高いチューニング、低ランク適応(LoRA)など、モーションのカスタマイズのための主流の適応方法を拡張するのは簡単です。
ただし、これらの方法で学習したモーションの概念は、トレーニング ビデオの限られた外観と組み合わされることが多く、カスタマイズされたモーションを他の外観に一般化することが困難になります。
この課題を克服するために、外観と動きの学習を分離するデュアルパス LoRAs アーキテクチャを備えた MotionDirector を提案します。
さらに、時間的トレーニング目標に対する外観の影響を軽減するために、新しい外観偏りのない時間的損失を設計します。
実験結果は、提案手法がカスタマイズされたモーションの多様な外観のビデオを生成できることを示しています。
私たちの方法は、さまざまなビデオとその外観とモーションをそれぞれ混合したり、カスタマイズされたモーションで単一の画像をアニメーション化するなど、さまざまな下流アプリケーションもサポートしています。
コードとモデルの重みが公開されます。

要約(オリジナル)

Large-scale pre-trained diffusion models have exhibited remarkable capabilities in diverse video generations. Given a set of video clips of the same motion concept, the task of Motion Customization is to adapt existing text-to-video diffusion models to generate videos with this motion. For example, generating a video with a car moving in a prescribed manner under specific camera movements to make a movie, or a video illustrating how a bear would lift weights to inspire creators. Adaptation methods have been developed for customizing appearance like subject or style, yet unexplored for motion. It is straightforward to extend mainstream adaption methods for motion customization, including full model tuning, parameter-efficient tuning of additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept learned by these methods is often coupled with the limited appearances in the training videos, making it difficult to generalize the customized motion to other appearances. To overcome this challenge, we propose MotionDirector, with a dual-path LoRAs architecture to decouple the learning of appearance and motion. Further, we design a novel appearance-debiased temporal loss to mitigate the influence of appearance on the temporal training objective. Experimental results show the proposed method can generate videos of diverse appearances for the customized motions. Our method also supports various downstream applications, such as the mixing of different videos with their appearance and motion respectively, and animating a single image with customized motions. Our code and model weights will be released.

arxiv情報

著者 Rui Zhao,Yuchao Gu,Jay Zhangjie Wu,David Junhao Zhang,Jiawei Liu,Weijia Wu,Jussi Keppo,Mike Zheng Shou
発行日 2023-10-12 16:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク