AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

要約

テキストから画像への (T2I) 拡散モデル (安定拡散など) と、DreamBooth や LoRA などの対応するパーソナライゼーション技術の進歩により、誰もが手頃なコストで高品質の画像に想像力を表現できるようになりました。
ただし、既存の高品質でパーソナライズされた T2I にモーション ダイナミクスを追加し、アニメーションを生成できるようにすることは、未解決の課題のままです。
このペーパーでは、モデル固有のチューニングを必要とせずにパーソナライズされた T2I モデルをアニメーション化するための実用的なフレームワークである AnimateDiff を紹介します。
私たちのフレームワークの中核となるのは、一度トレーニングすれば、同じベース T2I から生成されるパーソナライズされた T2I にシームレスに統合できるプラグ アンド プレイ モーション モジュールです。
私たちが提案したトレーニング戦略を通じて、モーション モジュールは現実世界のビデオから転送可能なモーション事前分布を効果的に学習します。
トレーニングが完了すると、モーション モジュールをパーソナライズされた T2I モデルに挿入して、パーソナライズされたアニメーション ジェネレーターを形成できます。
さらに、AnimateDiff の軽量微調整技術である MotionLoRA を提案します。これにより、事前トレーニングされたモーション モジュールが、低いトレーニング コストとデータ収集コストで、さまざまなショット タイプなどの新しいモーション パターンに適応できるようになります。
私たちは、コミュニティから収集されたいくつかの公的代表パーソナライズされた T2I モデルで AnimateDiff と MotionLoRA を評価します。
結果は、私たちのアプローチがこれらのモデルが視覚的な品質と動きの多様性を維持しながら、時間的に滑らかなアニメーション クリップを生成するのに役立つことを示しています。
コードと事前トレーニングされた重みは https://github.com/guoyww/AnimateDiff で入手できます。

要約(オリジナル)

With the advance of text-to-image (T2I) diffusion models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. However, adding motion dynamics to existing high-quality personalized T2Is and enabling them to generate animations remains an open challenge. In this paper, we present AnimateDiff, a practical framework for animating personalized T2I models without requiring model-specific tuning. At the core of our framework is a plug-and-play motion module that can be trained once and seamlessly integrated into any personalized T2Is originating from the same base T2I. Through our proposed training strategy, the motion module effectively learns transferable motion priors from real-world videos. Once trained, the motion module can be inserted into a personalized T2I model to form a personalized animation generator. We further propose MotionLoRA, a lightweight fine-tuning technique for AnimateDiff that enables a pre-trained motion module to adapt to new motion patterns, such as different shot types, at a low training and data collection cost. We evaluate AnimateDiff and MotionLoRA on several public representative personalized T2I models collected from the community. The results demonstrate that our approaches help these models generate temporally smooth animation clips while preserving the visual quality and motion diversity. Codes and pre-trained weights are available at https://github.com/guoyww/AnimateDiff.

arxiv情報

著者 Yuwei Guo,Ceyuan Yang,Anyi Rao,Zhengyang Liang,Yaohui Wang,Yu Qiao,Maneesh Agrawala,Dahua Lin,Bo Dai
発行日 2024-02-08 18:08:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク