要約
カスタマイズ生成技術により、さまざまなコンテキストにわたる特定の概念の統合が大幅に進歩しました。
この分野では、マルチコンセプトのカスタマイズが困難なタスクとして浮上しています。
既存のアプローチは、多くの場合、さまざまな概念を 1 つの画像にマージするために、複数の LoRA の低ランク適応 (LoRA) 融合行列をトレーニングすることに依存しています。
しかし、この単純な方法は 2 つの大きな課題に直面していることがわかりました。1) モデルが個別の個別の特性を保存できない場合に発生する概念の混乱。2) モデルが意図した主題を生成できない場合、概念の消失。
これらの問題に対処するために、複数の LoRA をシームレスに統合するために設計されたトレーニング不要のフレームワークである LoRA-Composer を導入します。これにより、生成された画像内のさまざまなコンセプト間の調和が強化されます。
LoRA-Composer は、コンセプト挿入制約を通じてコンセプトの消失に対処し、拡張されたクロスアテンション メカニズムを通じてコンセプトの可視性を高めます。
概念の混乱に対処するために、概念分離制約が導入され、自己注意の計算が改良されます。
さらに、指定された領域内の概念固有の潜在性を効果的に刺激するために、潜在的な再初期化が提案されています。
私たちの広範なテストでは、特に鋭いエッジや姿勢推定などの画像ベースの条件を排除した場合に、標準ベースラインと比較して LoRA-Composer のパフォーマンスが顕著に向上していることがわかりました。
コードは https://github.com/Young98CN/LoRA\_Composer でリリースされています。
要約(オリジナル)
Customization generation techniques have significantly advanced the synthesis of specific concepts across varied contexts. Multi-concept customization emerges as the challenging task within this domain. Existing approaches often rely on training a Low-Rank Adaptations (LoRA) fusion matrix of multiple LoRA to merge various concepts into a single image. However, we identify this straightforward method faces two major challenges: 1) concept confusion, which occurs when the model cannot preserve distinct individual characteristics, and 2) concept vanishing, where the model fails to generate the intended subjects. To address these issues, we introduce LoRA-Composer, a training-free framework designed for seamlessly integrating multiple LoRAs, thereby enhancing the harmony among different concepts within generated images. LoRA-Composer addresses concept vanishing through Concept Injection Constraints, enhancing concept visibility via an expanded cross-attention mechanism. To combat concept confusion, Concept Isolation Constraints are introduced, refining the self-attention computation. Furthermore, Latent Re-initialization is proposed to effectively stimulate concept-specific latent within designated regions. Our extensive testing showcases a notable enhancement in LoRA-Composer’s performance compared to standard baselines, especially when eliminating the image-based conditions like canny edge or pose estimations. Code is released at https://github.com/Young98CN/LoRA\_Composer.
arxiv情報
著者 | Yang Yang,Wen Wang,Liang Peng,Chaotian Song,Yao Chen,Hengjia Li,Xiaolong Yang,Qinglin Lu,Deng Cai,Boxi Wu,Wei Liu |
発行日 | 2024-03-18 09:58:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google