要約
テキストから画像への生成という進化する領域において、拡散モデルはコンテンツ作成における強力なツールとして登場しました。
既存のモデルは、その優れた機能にもかかわらず、一貫したスタイルで制御された生成を実現するという課題に依然として直面しており、コストのかかる微調整が必要になったり、コンテンツ漏洩により視覚要素が不適切に転送されることがよくあります。
これらの課題に対処するために、特定のスタイル要素やニュアンスを維持しながら、多様な画像を生成する新しいアプローチを提案します。
ノイズ除去プロセス中、元のフィーチャからのクエリを維持しながら、キーと値を後期セルフ アテンション レイヤーの参照フィーチャからのキーと値と交換します。
このアプローチにより、微調整を行わずに視覚的なスタイルのプロンプトが可能になり、生成された画像が忠実なスタイルを維持できるようになります。
さまざまなスタイルとテキスト プロンプトにわたる広範な評価を通じて、私たちの方法は既存のアプローチよりも優れていることを実証し、参考文献のスタイルを最もよく反映し、結果として得られる画像がテキスト プロンプトと最も正確に一致することを保証します。
私たちのプロジェクト ページは \href{https://curryjung.github.io/VisualStylePrompt/}{こちら} からご覧いただけます。
要約(オリジナル)
In the evolving domain of text-to-image generation, diffusion models have emerged as powerful tools in content creation. Despite their remarkable capability, existing models still face challenges in achieving controlled generation with a consistent style, requiring costly fine-tuning or often inadequately transferring the visual elements due to content leakage. To address these challenges, we propose a novel approach, \ours, to produce a diverse range of images while maintaining specific style elements and nuances. During the denoising process, we keep the query from original features while swapping the key and value with those from reference features in the late self-attention layers. This approach allows for the visual style prompting without any fine-tuning, ensuring that generated images maintain a faithful style. Through extensive evaluation across various styles and text prompts, our method demonstrates superiority over existing approaches, best reflecting the style of the references and ensuring that resulting images match the text prompts most accurately. Our project page is available \href{https://curryjung.github.io/VisualStylePrompt/}{here}.
arxiv情報
著者 | Jaeseok Jeong,Junho Kim,Yunjey Choi,Gayoung Lee,Youngjung Uh |
発行日 | 2024-02-20 12:51:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google