要約
大規模なText-to-Image(T2I)モデルは、テキストプロンプトから視覚的に説得力のある出力を生成し、クリエイティブな分野で急速に注目を集めている。しかしながら、一貫したスタイルを保証するためにこれらのモデルを制御することは依然として困難であり、既存の手法では、コンテンツとスタイルを分離するために微調整や手作業が必要である。本論文では、生成された一連の画像間のスタイルの整合を確立するために設計された新しい手法であるStyleAlignedを紹介する。拡散プロセスにおいて最小限の「注意の共有」を採用することで、本手法はT2Iモデル内の画像間でスタイルの一貫性を維持する。この手法により、簡単な反転操作により、参照スタイルを用いてスタイル一貫性のある画像を作成することができる。多様なスタイルとテキストプロンプトを対象とした我々の手法の評価では、高品質な合成と忠実性が実証され、様々な入力に対して一貫したスタイルを実現する有効性が強調された。
要約(オリジナル)
Large-scale Text-to-Image (T2I) models have rapidly gained prominence across creative fields, generating visually compelling outputs from textual prompts. However, controlling these models to ensure consistent style remains challenging, with existing methods necessitating fine-tuning and manual intervention to disentangle content and style. In this paper, we introduce StyleAligned, a novel technique designed to establish style alignment among a series of generated images. By employing minimal `attention sharing’ during the diffusion process, our method maintains style consistency across images within T2I models. This approach allows for the creation of style-consistent images using a reference style through a straightforward inversion operation. Our method’s evaluation across diverse styles and text prompts demonstrates high-quality synthesis and fidelity, underscoring its efficacy in achieving consistent style across various inputs.
arxiv情報
著者 | Amir Hertz,Andrey Voynov,Shlomi Fruchter,Daniel Cohen-Or |
発行日 | 2023-12-04 18:55:35+00:00 |
arxivサイト | arxiv_id(pdf) |