要約
低ランクの適応(LORA)は、マルチコンセプト画像生成において、文字やスタイルなどの複数の異なる要素を正確にレンダリングすることを可能にし、テキストから画像モデルで広く採用された手法として浮上しています。
ただし、現在のアプローチは、これらのLORAをマルチコンセプト画像生成のために作曲する際に大きな課題に直面し、生成された画質が低下します。
この論文では、最初にフーリエ周波数ドメインのレンズを介した除去プロセスにおけるロラの役割を調査します。
複数のLORAを適用すると「セマンティックな競合」につながる可能性があるという仮説に基づいて、特定のLORAはエッジやテクスチャなどの高周波機能を増幅するのに対し、他の人は主に全体的な構造や滑らかな色の勾配を含む低周波要素に焦点を当てていることがわかります。
。
これらの洞察に基づいて、頻度ドメインベースのシーケンス戦略を考案して、推論中にLORAを統合する最適な順序を決定します。
この戦略は、既存のLORA融合技術で一般的に見られる素朴な統合と比較して、系統的で一般化可能なソリューションを提供します。
提案されているLORA順序シーケンス決定方法をマルチLORA組成タスクで完全に活用するために、凝集画像生成を維持しながら複数のLORAを効率的に統合するように設計された、新しいトレーニングフリーフレームワークであるキャッシュされたマルチロラ(Cmlora)を紹介します。
マルチLORA融合のための柔軟なバックボーンと個々のLORAに合わせた不均一なキャッシュ戦略により、CmloraはLORA組成のセマンティックな競合を減らし、計算効率を改善する可能性があります。
私たちの実験的評価は、Cmloraが最先端のトレーニングを含まないLora融合方法を大幅に上回ることを実証しています。これは、Clipscoreで2.19%\%$ $ 2.19 \%$の平均改善を達成し、MLLMの勝率で11.25 \%$を達成します。
Lorahub、Lora Composite、およびLora Switch。
要約(オリジナル)
Low-Rank Adaptation (LoRA) has emerged as a widely adopted technique in text-to-image models, enabling precise rendering of multiple distinct elements, such as characters and styles, in multi-concept image generation. However, current approaches face significant challenges when composing these LoRAs for multi-concept image generation, resulting in diminished generated image quality. In this paper, we initially investigate the role of LoRAs in the denoising process through the lens of the Fourier frequency domain. Based on the hypothesis that applying multiple LoRAs could lead to ‘semantic conflicts’, we find that certain LoRAs amplify high-frequency features such as edges and textures, whereas others mainly focus on low-frequency elements, including the overall structure and smooth color gradients. Building on these insights, we devise a frequency domain based sequencing strategy to determine the optimal order in which LoRAs should be integrated during inference. This strategy offers a methodical and generalizable solution compared to the naive integration commonly found in existing LoRA fusion techniques. To fully leverage our proposed LoRA order sequence determination method in multi-LoRA composition tasks, we introduce a novel, training-free framework, Cached Multi-LoRA (CMLoRA), designed to efficiently integrate multiple LoRAs while maintaining cohesive image generation. With its flexible backbone for multi-LoRA fusion and a non-uniform caching strategy tailored to individual LoRAs, CMLoRA has the potential to reduce semantic conflicts in LoRA composition and improve computational efficiency. Our experimental evaluations demonstrate that CMLoRA outperforms state-of-the-art training-free LoRA fusion methods by a significant margin — it achieves an average improvement of $2.19\%$ in CLIPScore, and $11.25\%$ in MLLM win rate compared to LoraHub, LoRA Composite, and LoRA Switch.
arxiv情報
著者 | Xiandong Zou,Mingzhu Shen,Christos-Savvas Bouganis,Yiren Zhao |
発行日 | 2025-02-07 13:41:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google