Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation

要約

最近の拡散モデルのカスタマイズにより、テーマやスタイルの概念に少数の画像を組み込むことで、印象的な結果が示されています。
ただし、複数の概念のモジュラー構成は、アイデンティティに影響を与えることなく、分散型訓練された概念を効率的に統合することを目的としたカスタマイズされたモデルへのモデル化されていませんが、未解決のままです。
モジュラーカスタマイズは、異なるユーザーがトレーニングした概念を使用して、コンセプトスタイリゼーションやマルチコンセプトのカスタマイズなどのアプリケーションに不可欠です。
既存のトレーニング後の方法は、固定の概念セットにのみ限定されており、異なる組み合わせには新しいラウンドの再訓練が必要です。
対照的に、インスタントマージメソッドは、多くの場合、個々のマージされた概念のアイデンティティの喪失と干渉を引き起こし、通常、少数の概念に限定されます。
これらの問題に対処するために、個々の概念のアイデンティティを正確に保存しながら、複数の概念を効率的に組み合わせるように設計されたインスタントマージメソッドであるBlockloraを提案します。
干渉の根本的な理由を慎重に分析することで、異なるカスタマイズされたモデルの干渉を最小限に抑えるために、ランダム化出力消去技術を開発します。
さらに、インスタントモデルのマージ中のIDの損失を減らすために、ブロックワイズLORAパラメーター化が提案されています。
広範な実験では、ブロックロラの有効性を検証します。これは、15の概念を即座に融合させることができます。

要約(オリジナル)

Recent diffusion model customization has shown impressive results in incorporating subject or style concepts with a handful of images. However, the modular composition of multiple concepts into a customized model, aimed to efficiently merge decentralized-trained concepts without influencing their identities, remains unresolved. Modular customization is essential for applications like concept stylization and multi-concept customization using concepts trained by different users. Existing post-training methods are only confined to a fixed set of concepts, and any different combinations require a new round of retraining. In contrast, instant merging methods often cause identity loss and interference of individual merged concepts and are usually limited to a small number of concepts. To address these issues, we propose BlockLoRA, an instant merging method designed to efficiently combine multiple concepts while accurately preserving individual concepts’ identity. With a careful analysis of the underlying reason for interference, we develop the Randomized Output Erasure technique to minimize the interference of different customized models. Additionally, Blockwise LoRA Parameterization is proposed to reduce the identity loss during instant model merging. Extensive experiments validate the effectiveness of BlockLoRA, which can instantly merge 15 concepts of people, subjects, scenes, and styles with high fidelity.

arxiv情報

著者 Mingkang Zhu,Xi Chen,Zhongdao Wang,Bei Yu,Hengshuang Zhao,Jiaya Jia
発行日 2025-03-11 16:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク