要約
スタイル転送には、参照画像からターゲット画像のコンテンツにスタイルを転送することが含まれます。
LORAベースの(低ランク適応)方法の最近の進歩は、単一の画像のスタイルを効果的にキャプチャすることで有望であることが示されています。
ただし、これらのアプローチは、コンテンツの不一致、スタイルの不整合、コンテンツの漏れなど、依然として重要な課題に直面しています。
この論文では、スタイル転送のコンテキストでノイズを予測することを学ぶ標準拡散パラメーター化の制限を包括的に分析します。
これらの問題に対処するために、ロラの重みを最適化してノイズではなく元の画像を予測することにより、コンテンツとスタイルの一貫性の両方を強化するLORAベースの方法であるConsisloraを紹介します。
また、参照画像からコンテンツとスタイルの学習を分離する2段階のトレーニング戦略を提案します。
コンテンツ画像のグローバル構造とローカルの詳細の両方を効果的にキャプチャするために、段階的な損失移行戦略を紹介します。
さらに、推論中のコンテンツとスタイルの強さを継続的に制御できる推論ガイダンス方法を提示します。
定性的評価と定量的評価の両方を通じて、私たちの方法は、コンテンツとスタイルの一貫性の大幅な改善を示しながら、コンテンツの漏れを効果的に削減します。
要約(オリジナル)
Style transfer involves transferring the style from a reference image to the content of a target image. Recent advancements in LoRA-based (Low-Rank Adaptation) methods have shown promise in effectively capturing the style of a single image. However, these approaches still face significant challenges such as content inconsistency, style misalignment, and content leakage. In this paper, we comprehensively analyze the limitations of the standard diffusion parameterization, which learns to predict noise, in the context of style transfer. To address these issues, we introduce ConsisLoRA, a LoRA-based method that enhances both content and style consistency by optimizing the LoRA weights to predict the original image rather than noise. We also propose a two-step training strategy that decouples the learning of content and style from the reference image. To effectively capture both the global structure and local details of the content image, we introduce a stepwise loss transition strategy. Additionally, we present an inference guidance method that enables continuous control over content and style strengths during inference. Through both qualitative and quantitative evaluations, our method demonstrates significant improvements in content and style consistency while effectively reducing content leakage.
arxiv情報
著者 | Bolin Chen,Baoquan Zhao,Haoran Xie,Yi Cai,Qing Li,Xudong Mao |
発行日 | 2025-03-13 17:55:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google