要約
拡散モデルを使用したカスタマイズされた生成は、画像生成において目覚ましい進歩を遂げましたが、被写体と動きの両方の制御性が必要となるため、困難なビデオ生成タスクでは依然として不十分です。
そのために、目的の被写体のいくつかの静止画像とターゲットの動きのいくつかのビデオからパーソナライズされたビデオを生成する新しいアプローチである DreamVideo を紹介します。
DreamVideo は、事前トレーニングされたビデオ拡散モデルを活用することで、このタスクを主題学習と動作学習の 2 つの段階に分離します。
主題の学習は、提供された画像から主題の微細な外観を正確にキャプチャすることを目的としています。これは、テキストの反転と、慎重に設計された ID アダプターの微調整を組み合わせることによって実現されます。
モーション学習では、モーション アダプターを構築し、指定されたビデオに対して微調整して、ターゲットのモーション パターンを効果的にモデル化します。
これら 2 つの軽量で効率的なアダプターを組み合わせることで、あらゆる被写体とあらゆるモーションを柔軟にカスタマイズできます。
広範な実験結果により、カスタマイズされたビデオ生成の最先端の方法よりも DreamVideo のパフォーマンスが優れていることが実証されています。
私たちのプロジェクト ページは https://dreamvideo-t2v.github.io にあります。
要約(オリジナル)
Customized generation using diffusion models has made impressive progress in image generation, but remains unsatisfactory in the challenging video generation task, as it requires the controllability of both subjects and motions. To that end, we present DreamVideo, a novel approach to generating personalized videos from a few static images of the desired subject and a few videos of target motion. DreamVideo decouples this task into two stages, subject learning and motion learning, by leveraging a pre-trained video diffusion model. The subject learning aims to accurately capture the fine appearance of the subject from provided images, which is achieved by combining textual inversion and fine-tuning of our carefully designed identity adapter. In motion learning, we architect a motion adapter and fine-tune it on the given videos to effectively model the target motion pattern. Combining these two lightweight and efficient adapters allows for flexible customization of any subject with any motion. Extensive experimental results demonstrate the superior performance of our DreamVideo over the state-of-the-art methods for customized video generation. Our project page is at https://dreamvideo-t2v.github.io.
arxiv情報
著者 | Yujie Wei,Shiwei Zhang,Zhiwu Qing,Hangjie Yuan,Zhiheng Liu,Yu Liu,Yingya Zhang,Jingren Zhou,Hongming Shan |
発行日 | 2023-12-07 16:57:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google