要約
Text-to-Image (T2I) モデルのカスタマイズは、最近、特にパーソナライゼーション、スタイル化、条件付き生成などの分野で大幅な進歩を遂げています。
ただし、この進歩をビデオ生成に拡張することは、主にカスタマイズされたビデオ データが不足しているため、まだ初期段階にあります。
この研究では、カスタマイズされたビデオ データを必要とせずにテキストからビデオ (T2V) モデルをカスタマイズするための新しい汎用フレームワークである Still-Moving を紹介します。
このフレームワークは、ビデオ モデルが Text-to-Image (T2I) モデル上に (たとえば、インフレーションによって) 構築される著名な T2V 設計に適用されます。
静止画像データのみでトレーニングされた (たとえば、DreamBooth または StyleDrop を使用して) T2I モデルのカスタマイズされたバージョンにアクセスすることを想定しています。
カスタマイズされた T2I モデルの重みを T2V モデルに単純に組み込むと、多くの場合、重大なアーティファクトが発生したり、カスタマイズ データへの準拠が不十分になったりします。
この問題を解決するために、注入された T2I 層によって生成される特徴を調整する軽量の $\textit{空間アダプター}$ をトレーニングします。
重要なのは、私たちのアダプターは、カスタマイズされた T2I モデルによって生成された画像サンプルから構築された $\textit{‘frozen videos’}$ (つまり、繰り返し画像) でトレーニングされていることです。
このトレーニングは、新しい $\textit{Motion Adaptor}$ モジュールによって促進されます。これにより、ビデオ モデルの前のモーションを保持しながら、そのような静的ビデオでトレーニングできるようになります。
テスト時には、モーション アダプター モジュールを削除し、トレーニングされた空間アダプターのみを残します。
これにより、カスタマイズされた T2I モデルの空間事前分布を遵守しながら、T2V モデルの事前運動を復元します。
私たちは、パーソナライズされた、定型化された、条件付きの生成を含む、さまざまなタスクに対するアプローチの有効性を実証します。
評価されたすべてのシナリオにおいて、私たちの方法は、カスタマイズされた T2I モデルの空間事前情報と、T2V モデルによって提供されるモーション事前情報をシームレスに統合します。
要約(オリジナル)
Customizing text-to-image (T2I) models has seen tremendous progress recently, particularly in areas such as personalization, stylization, and conditional generation. However, expanding this progress to video generation is still in its infancy, primarily due to the lack of customized video data. In this work, we introduce Still-Moving, a novel generic framework for customizing a text-to-video (T2V) model, without requiring any customized video data. The framework applies to the prominent T2V design where the video model is built over a text-to-image (T2I) model (e.g., via inflation). We assume access to a customized version of the T2I model, trained only on still image data (e.g., using DreamBooth or StyleDrop). Naively plugging in the weights of the customized T2I model into the T2V model often leads to significant artifacts or insufficient adherence to the customization data. To overcome this issue, we train lightweight $\textit{Spatial Adapters}$ that adjust the features produced by the injected T2I layers. Importantly, our adapters are trained on $\textit{‘frozen videos’}$ (i.e., repeated images), constructed from image samples generated by the customized T2I model. This training is facilitated by a novel $\textit{Motion Adapter}$ module, which allows us to train on such static videos while preserving the motion prior of the video model. At test time, we remove the Motion Adapter modules and leave in only the trained Spatial Adapters. This restores the motion prior of the T2V model while adhering to the spatial prior of the customized T2I model. We demonstrate the effectiveness of our approach on diverse tasks including personalized, stylized, and conditional generation. In all evaluated scenarios, our method seamlessly integrates the spatial prior of the customized T2I model with a motion prior supplied by the T2V model.
arxiv情報
著者 | Hila Chefer,Shiran Zada,Roni Paiss,Ariel Ephrat,Omer Tov,Michael Rubinstein,Lior Wolf,Tali Dekel,Tomer Michaeli,Inbar Mosseri |
発行日 | 2024-07-11 17:06:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google