要約
拡散ベースのテキストから画像へのモデルは、参照スタイルの転送において計り知れない可能性を秘めています。
ただし、現在のエンコーダベースのアプローチでは、スタイルを転送する際のテキストから画像へのモデルのテキスト制御性が大幅に損なわれます。
この論文では、次の 2 つの戦略を使用してこの問題に対処する \textit{DEADiff} を導入します。 1) 参照画像のスタイルとセマンティクスを分離するメカニズム。
分離された特徴表現は、異なるテキスト記述によって指示される Q-Former によって最初に抽出されます。
次に、より効果的に絡み合いを解くために、相互に排他的なクロスアテンション レイヤーのサブセットにそれらが注入されます。
2) 非再構築的な学習方法。
Q-Former は、参照画像とグラウンドトゥルース画像が同じスタイルまたはセマンティクスを持つ、同一のターゲットではなくペアの画像を使用してトレーニングされます。
DEADiff が最良の視覚的様式化結果を達成し、テキストから画像へのモデルに固有のテキスト制御性と参照画像とのスタイルの類似性の間の最適なバランスが定量的および定性的に実証されたことを示します。
私たちのプロジェクト ページは ~\href{https://tianhao-qi.github.io/DEADiff/}{https://tianhao-qi.github.io/DEADiff/} です。
要約(オリジナル)
The diffusion-based text-to-image model harbors immense potential in transferring reference style. However, current encoder-based approaches significantly impair the text controllability of text-to-image models while transferring styles. In this paper, we introduce \textit{DEADiff} to address this issue using the following two strategies: 1) a mechanism to decouple the style and semantics of reference images. The decoupled feature representations are first extracted by Q-Formers which are instructed by different text descriptions. Then they are injected into mutually exclusive subsets of cross-attention layers for better disentanglement. 2) A non-reconstructive learning method. The Q-Formers are trained using paired images rather than the identical target, in which the reference image and the ground-truth image are with the same style or semantics. We show that DEADiff attains the best visual stylization results and optimal balance between the text controllability inherent in the text-to-image model and style similarity to the reference image, as demonstrated both quantitatively and qualitatively. Our project page is~\href{https://tianhao-qi.github.io/DEADiff/}{https://tianhao-qi.github.io/DEADiff/}.
arxiv情報
著者 | Tianhao Qi,Shancheng Fang,Yanze Wu,Hongtao Xie,Jiawei Liu,Lang Chen,Qian He,Yongdong Zhang |
発行日 | 2024-03-11 17:35:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google