Implicit Style-Content Separation using B-LoRA

要約

画像の様式化には、その基礎となるオブジェクト、構造、概念 (コンテンツ) を維持しながら、画像の視覚的な外観とテクスチャ (スタイル) を操作することが含まれます。
スタイルとコンテンツを分離することは、画像のスタイルをコンテンツから独立して操作し、調和のとれた視覚的に好ましい結果を保証するために不可欠です。
この分離を実現するには、画像の視覚的特性と意味論的特性の両方を深く理解する必要があり、多くの場合、特殊なモデルのトレーニングや高度な最適化の採用が必要になります。
このペーパーでは、LoRA (Low-Rank Adaptation) を利用して単一画像のスタイルとコンテンツ コンポーネントを暗黙的に分離し、さまざまな画像スタイル化タスクを容易にする手法である B-LoRA を紹介します。
LoRA と組み合わせた SDXL のアーキテクチャを分析することにより、2 つの特定のブロック (B-LoRA と呼ばれる) の LoRA 重みを共同学習することで、各 B-LoRA を個別にトレーニングすることによっては達成できないスタイルとコンテンツの分離が達成されることがわかりました。
トレーニングを 2 つのブロックのみに統合し、スタイルとコンテンツを分離することで、スタイルの操作が大幅に改善され、モデルの微調整に関連することが多い過剰適合の問題を克服できます。
トレーニングが完了すると、2 つの B-LoRA を独立したコンポーネントとして使用して、画像スタイルの転送、テキストベースの画像の様式化、一貫したスタイルの生成、スタイルとコンテンツの混合などのさまざまな画像様式化タスクを実行できるようになります。

要約(オリジナル)

Image stylization involves manipulating the visual appearance and texture (style) of an image while preserving its underlying objects, structures, and concepts (content). The separation of style and content is essential for manipulating the image’s style independently from its content, ensuring a harmonious and visually pleasing result. Achieving this separation requires a deep understanding of both the visual and semantic characteristics of images, often necessitating the training of specialized models or employing heavy optimization. In this paper, we introduce B-LoRA, a method that leverages LoRA (Low-Rank Adaptation) to implicitly separate the style and content components of a single image, facilitating various image stylization tasks. By analyzing the architecture of SDXL combined with LoRA, we find that jointly learning the LoRA weights of two specific blocks (referred to as B-LoRAs) achieves style-content separation that cannot be achieved by training each B-LoRA independently. Consolidating the training into only two blocks and separating style and content allows for significantly improving style manipulation and overcoming overfitting issues often associated with model fine-tuning. Once trained, the two B-LoRAs can be used as independent components to allow various image stylization tasks, including image style transfer, text-based image stylization, consistent style generation, and style-content mixing.

arxiv情報

著者 Yarden Frenkel,Yael Vinker,Ariel Shamir,Daniel Cohen-Or
発行日 2024-03-21 17:20:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク