要約
生成モデルは大規模データベースから学習した概念の高品質画像を生成しますが、ユーザーは多くの場合、自分自身の概念 (家族、ペット、アイテムなど) のインスタンスを合成したいと考えます。
いくつかの例をあげて、新しい概念をすぐに習得できるようにモデルを教えることはできるでしょうか?
さらに、複数の新しい概念を組み合わせることはできますか?
私たちは、既存のテキストから画像へのモデルを強化するための効率的な方法であるカスタム拡散を提案します。
テキストから画像への調整メカニズムのいくつかのパラメーターを最適化するだけで、高速なチューニング (約 6 分) を可能にしながら新しい概念を表現するには十分強力であることがわかりました。
さらに、複数の概念を共同でトレーニングしたり、閉じた形式の制約付き最適化を通じて複数の微調整されたモデルを 1 つに結合したりできます。
私たちの微調整されたモデルは、複数の新しいコンセプトのバリエーションを生成し、それらを新しい設定で既存のコンセプトとシームレスに組み合わせます。
私たちの方法は、メモリと計算効率が高く、定性的評価と定量的評価の両方において、いくつかのベースラインと同時作業を上回るか同等のパフォーマンスを発揮します。
要約(オリジナル)
While generative models produce high-quality images of concepts learned from a large-scale database, a user often wishes to synthesize instantiations of their own concepts (for example, their family, pets, or items). Can we teach a model to quickly acquire a new concept, given a few examples? Furthermore, can we compose multiple new concepts together? We propose Custom Diffusion, an efficient method for augmenting existing text-to-image models. We find that only optimizing a few parameters in the text-to-image conditioning mechanism is sufficiently powerful to represent new concepts while enabling fast tuning (~6 minutes). Additionally, we can jointly train for multiple concepts or combine multiple fine-tuned models into one via closed-form constrained optimization. Our fine-tuned model generates variations of multiple new concepts and seamlessly composes them with existing concepts in novel settings. Our method outperforms or performs on par with several baselines and concurrent works in both qualitative and quantitative evaluations while being memory and computationally efficient.
arxiv情報
著者 | Nupur Kumari,Bingliang Zhang,Richard Zhang,Eli Shechtman,Jun-Yan Zhu |
発行日 | 2023-06-20 16:26:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google