要約
テキストから画像へのカスタマイズの最近の進歩により、高忠実度でコンテキストに富んだパーソナライズされた画像の生成が可能になり、特定のコンセプトをさまざまなシナリオに表示できるようになりました。
しかし、現在の手法では、複数のパーソナライズされたモデルを組み合わせるのが難しく、属性のもつれが生じたり、概念の独自性を維持するために別のトレーニングが必要になったりすることがよくあります。
我々は、個別の微調整を追加することなく、それぞれが個別のコンセプトに合わせて微調整された複数の LoRA モデルを単一の統合モデルにマージする、マルチコンセプト画像生成のための新しいアプローチである LoRACLR を紹介します。
LoRACLR は、対照的な対物レンズを使用してこれらのモデルのウェイト スペースを調整およびマージし、干渉を最小限に抑えながら互換性を確保します。
LoRACLR は、コンセプトごとに個別でありながら一貫した表現を強制することで、高品質のマルチコンセプト画像合成のための効率的でスケーラブルなモデル構成を可能にします。
私たちの結果は、複数の概念を正確に統合し、パーソナライズされた画像生成の機能を向上させるという LoRACLR の有効性を強調しています。
要約(オリジナル)
Recent advances in text-to-image customization have enabled high-fidelity, context-rich generation of personalized images, allowing specific concepts to appear in a variety of scenarios. However, current methods struggle with combining multiple personalized models, often leading to attribute entanglement or requiring separate training to preserve concept distinctiveness. We present LoRACLR, a novel approach for multi-concept image generation that merges multiple LoRA models, each fine-tuned for a distinct concept, into a single, unified model without additional individual fine-tuning. LoRACLR uses a contrastive objective to align and merge the weight spaces of these models, ensuring compatibility while minimizing interference. By enforcing distinct yet cohesive representations for each concept, LoRACLR enables efficient, scalable model composition for high-quality, multi-concept image synthesis. Our results highlight the effectiveness of LoRACLR in accurately merging multiple concepts, advancing the capabilities of personalized image generation.
arxiv情報
著者 | Enis Simsar,Thomas Hofmann,Federico Tombari,Pinar Yanardag |
発行日 | 2024-12-12 18:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google