要約
最近の研究では、さまざまなロラを組み合わせて、学習スタイルとコンテンツを共同で生成しました。
ただし、既存の方法は、元の主題とスタイルの両方を同時に効果的に維持できないか、追加のトレーニングが必要です。
この論文では、LORAの固有の特性は、学習した主題とスタイルを融合する際に拡散モデルを効果的に導くことができると主張します。
この洞察に基づいて、私たちはK-Loraを提案します。これは、シンプルでありながら効果的なトレーニングのないLora Fusionアプローチです。
各注意層で、K-LORAは各ロラのトップK要素を融合し、最適な融合のために選択するロラを決定します。
この選択メカニズムにより、主題とスタイルの両方の最も代表的な特徴が融合プロセス中に保持され、貢献のバランスをとることが保証されます。
実験結果は、提案された方法が元のLORAによって学習した主題とスタイルの情報を効果的に統合し、定性的および定量的結果の両方で最先端のトレーニングベースのアプローチを上回ることを示しています。
要約(オリジナル)
Recent studies have explored combining different LoRAs to jointly generate learned style and content. However, existing methods either fail to effectively preserve both the original subject and style simultaneously or require additional training. In this paper, we argue that the intrinsic properties of LoRA can effectively guide diffusion models in merging learned subject and style. Building on this insight, we propose K-LoRA, a simple yet effective training-free LoRA fusion approach. In each attention layer, K-LoRA compares the Top-K elements in each LoRA to be fused, determining which LoRA to select for optimal fusion. This selection mechanism ensures that the most representative features of both subject and style are retained during the fusion process, effectively balancing their contributions. Experimental results demonstrate that the proposed method effectively integrates the subject and style information learned by the original LoRAs, outperforming state-of-the-art training-based approaches in both qualitative and quantitative results.
arxiv情報
著者 | Ziheng Ouyang,Zhen Li,Qibin Hou |
発行日 | 2025-02-25 18:59:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google