Style Aligned Image Generation via Shared Attention

要約

大規模な Text-to-Image (T2I) モデルはクリエイティブ分野全体で急速に注目を集めており、テキスト プロンプトから視覚的に説得力のある出力を生成します。
ただし、一貫したスタイルを確保するためにこれらのモデルを制御することは依然として困難であり、既存の方法ではコンテンツとスタイルの絡み合いを解消するために微調整と手動介入が必要です。
このペーパーでは、生成された一連の画像間でスタイルの位置合わせを確立するように設計された新しい技術である StyleAligned を紹介します。
拡散プロセス中に最小限の「注意の共有」を採用することにより、私たちの方法は、T2I モデル内の画像間でスタイルの一貫性を維持します。
このアプローチでは、単純な反転操作を通じて参照スタイルを使用して、スタイルの一貫した画像を作成できます。
多様なスタイルとテキスト プロンプトにわたる私たちの手法の評価は、高品質の合成と忠実性を実証し、さまざまな入力にわたって一貫したスタイルを実現するその有効性を強調しています。

要約(オリジナル)

Large-scale Text-to-Image (T2I) models have rapidly gained prominence across creative fields, generating visually compelling outputs from textual prompts. However, controlling these models to ensure consistent style remains challenging, with existing methods necessitating fine-tuning and manual intervention to disentangle content and style. In this paper, we introduce StyleAligned, a novel technique designed to establish style alignment among a series of generated images. By employing minimal `attention sharing’ during the diffusion process, our method maintains style consistency across images within T2I models. This approach allows for the creation of style-consistent images using a reference style through a straightforward inversion operation. Our method’s evaluation across diverse styles and text prompts demonstrates high-quality synthesis and fidelity, underscoring its efficacy in achieving consistent style across various inputs.

arxiv情報

著者 Amir Hertz,Andrey Voynov,Shlomi Fruchter,Daniel Cohen-Or
発行日 2024-01-11 13:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク