Customizing Text-to-Image Models with a Single Image Pair

要約

アートの再解釈とは、参照作品のバリエーションを作成し、独特の芸術的スタイルを示すペアのアートワークを作成する実践です。
このような画像ペアを使用して生成モデルをカスタマイズし、実証されたスタイルの違いをキャプチャできるかどうかを尋ねます。
我々は、単一の画像ペアからスタイルの違いを学習し、取得したスタイルを生成プロセスに適用する新しいカスタマイズ手法であるペア カスタマイズを提案します。
画像のコレクションから単一の概念を模倣することを学習する既存の方法とは異なり、私たちの方法は、ペアの画像間のスタイルの違いを捉えます。
これにより、例の特定の画像コンテンツに過度に適合することなく、スタイルの変更を適用することができます。
この新しいタスクに対処するために、スタイルとコンテンツを個別の LoRA 重み空間に明示的に分離する共同最適化手法を採用します。
これらのスタイルとコンテンツの重みを最適化して、スタイルとコンテンツの画像を再現しながら、それらの直交性を促進します。
推論中に、学習した重みに基づいた新しいスタイルのガイダンスを介して拡散プロセスを変更します。
定性的実験と定量的実験の両方で、私たちの方法が画像コンテンツへの過剰適合を回避しながら効果的にスタイルを学習できることが示され、単一の画像ペアからそのようなスタイルの違いをモデル化できる可能性が強調されています。

要約(オリジナル)

Art reinterpretation is the practice of creating a variation of a reference work, making a paired artwork that exhibits a distinct artistic style. We ask if such an image pair can be used to customize a generative model to capture the demonstrated stylistic difference. We propose Pair Customization, a new customization method that learns stylistic difference from a single image pair and then applies the acquired style to the generation process. Unlike existing methods that learn to mimic a single concept from a collection of images, our method captures the stylistic difference between paired images. This allows us to apply a stylistic change without overfitting to the specific image content in the examples. To address this new task, we employ a joint optimization method that explicitly separates the style and content into distinct LoRA weight spaces. We optimize these style and content weights to reproduce the style and content images while encouraging their orthogonality. During inference, we modify the diffusion process via a new style guidance based on our learned weights. Both qualitative and quantitative experiments show that our method can effectively learn style while avoiding overfitting to image content, highlighting the potential of modeling such stylistic differences from a single image pair.

arxiv情報

著者 Maxwell Jones,Sheng-Yu Wang,Nupur Kumari,David Bau,Jun-Yan Zhu
発行日 2024-05-02 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク