要約
拡散モデルを使用した画像生成は最近大きく進歩しましたが、その内部の潜在表現は依然としてよく理解されていません。
既存の作品は、Stable Diffusion の U-Net のボトルネック層 (h 空間) に焦点を当てているか、クロスアテンション層、セルフアテンション層、またはデコード層を活用しています。
私たちのモデル SkipInject は、U-Net のスキップ接続を利用します。
スキップ接続の役割について徹底的な分析を行ったところ、3 番目のエンコーダー ブロックによって渡された残りの接続が、再構成された画像の空間情報のほとんどを保持し、コンテンツをスタイルから分離していることがわかりました。
このブロックからの表現の注入が、テキストベースの編集、正確な変更、スタイルの転送に使用できることを示します。
私たちの方法と最先端のスタイル転送および画像編集方法を比較し、私たちの方法が最良のコンテンツ位置合わせと最適な構造保持のトレードオフを実現することを実証します。
要約(オリジナル)
Despite significant recent advances in image generation with diffusion models, their internal latent representations remain poorly understood. Existing works focus on the bottleneck layer (h-space) of Stable Diffusion’s U-Net or leverage the cross-attention, self-attention, or decoding layers. Our model, SkipInject takes advantage of U-Net’s skip connections. We conduct thorough analyses on the role of the skip connections and find that the residual connections passed by the third encoder block carry most of the spatial information of the reconstructed image, splitting the content from the style. We show that injecting the representations from this block can be used for text-based editing, precise modifications, and style transfer. We compare our methods state-of-the-art style transfer and image editing methods and demonstrate that our method obtains the best content alignment and optimal structural preservation tradeoff.
arxiv情報
著者 | Ludovica Schaerf,Andrea Alfarano,Fabrizio Silvestri,Leonardo Impett |
発行日 | 2025-01-24 14:27:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google