Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

要約

Stable Diffusion などの公開された大規模なテキストから画像への拡散モデルは、コミュニティから大きな注目を集めています。
これらのモデルは、低ランク適応 (LoRA) を使用して、新しいコンセプトに合わせて簡単にカスタマイズできます。
ただし、複数のカスタマイズされたコンセプトを共同でサポートするために複数のコンセプト LoRA を利用することには課題が伴います。
このシナリオを分散型マルチコンセプト カスタマイズと呼びます。これには、単一クライアントのコンセプトの調整とセンター ノードのコンセプトの融合が含まれます。
このホワイトペーパーでは、既存のシングルクライアント LoRA チューニングやモデル融合中のアイデンティティ損失から生じる概念の競合など、分散型マルチコンセプトのカスタマイズの課題に対処する、Mix-of-Show と呼ばれる新しいフレームワークを提案します。
Mix-of-Show は、単一クライアントのチューニングとセンター ノードの勾配融合に埋め込み分解 LoRA (ED-LoRA) を採用し、単一概念のドメイン内本質を保持し、理論的に無限の概念融合をサポートします。
さらに、空間的に制御可能なサンプリング (ControlNet や T2I-Adaptor など) を拡張して、複数概念サンプリングにおける属性バインディングやオブジェクト欠落の問題に対処する、地域的に制御可能なサンプリングを導入します。
広範な実験により、Mix-of-Show がキャラクター、オブジェクト、シーンなどの複数のカスタマイズされたコンセプトを高い忠実度で構成できることが実証されました。

要約(オリジナル)

Public large-scale text-to-image diffusion models, such as Stable Diffusion, have gained significant attention from the community. These models can be easily customized for new concepts using low-rank adaptations (LoRAs). However, the utilization of multiple concept LoRAs to jointly support multiple customized concepts presents a challenge. We refer to this scenario as decentralized multi-concept customization, which involves single-client concept tuning and center-node concept fusion. In this paper, we propose a new framework called Mix-of-Show that addresses the challenges of decentralized multi-concept customization, including concept conflicts resulting from existing single-client LoRA tuning and identity loss during model fusion. Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client tuning and gradient fusion for the center node to preserve the in-domain essence of single concepts and support theoretically limitless concept fusion. Additionally, we introduce regionally controllable sampling, which extends spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address attribute binding and missing object problems in multi-concept sampling. Extensive experiments demonstrate that Mix-of-Show is capable of composing multiple customized concepts with high fidelity, including characters, objects, and scenes.

arxiv情報

著者 Yuchao Gu,Xintao Wang,Jay Zhangjie Wu,Yujun Shi,Yunpeng Chen,Zihan Fan,Wuyou Xiao,Rui Zhao,Shuning Chang,Weijia Wu,Yixiao Ge,Ying Shan,Mike Zheng Shou
発行日 2023-05-29 17:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク