SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

要約

拡散モデルは、テキストから画像への生成において目覚ましい成功を収め、テキスト プロンプトやその他のモダリティから高品質の画像を作成できるようになりました。
ただし、これらのモデルをカスタマイズするための既存の方法は、複数のパーソナライズされたサブジェクトの処理とオーバーフィッティングのリスクによって制限されます。
さらに、それらの多数のパラメーターは、モデルの保存には非効率的です。
この論文では、パーソナライゼーションのための既存のテキストから画像への拡散モデルにおけるこれらの制限に対処するための新しいアプローチを提案します。
私たちの方法には、重み行列の特異値を微調整することが含まれており、オーバーフィッティングや言語ドリフトのリスクを軽減するコンパクトで効率的なパラメーター空間につながります。
また、マルチサブジェクト画像生成の品質を向上させるための Cut-Mix-Unmix データ拡張技術と、単純なテキストベースの画像編集フレームワークも提案します。
私たちが提案する SVDiff メソッドは、既存のメソッド (vanilla DreamBooth 3.66GB、Custom Diffusion 73MB) と比較してモデル サイズが大幅に小さく (StableDiffusion の場合は 1.7MB)、実際のアプリケーションでより実用的です。

要約(オリジナル)

Diffusion models have achieved remarkable success in text-to-image generation, enabling the creation of high-quality images from text prompts or other modalities. However, existing methods for customizing these models are limited by handling multiple personalized subjects and the risk of overfitting. Moreover, their large number of parameters is inefficient for model storage. In this paper, we propose a novel approach to address these limitations in existing text-to-image diffusion models for personalization. Our method involves fine-tuning the singular values of the weight matrices, leading to a compact and efficient parameter space that reduces the risk of overfitting and language-drifting. We also propose a Cut-Mix-Unmix data-augmentation technique to enhance the quality of multi-subject image generation and a simple text-based image editing framework. Our proposed SVDiff method has a significantly smaller model size (1.7MB for StableDiffusion) compared to existing methods (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB), making it more practical for real-world applications.

arxiv情報

著者 Ligong Han,Yinxiao Li,Han Zhang,Peyman Milanfar,Dimitris Metaxas,Feng Yang
発行日 2023-03-20 17:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク