要約
チューニングフリーの拡散に基づくモデルは、画像のパーソナライゼーションとカスタマイズの領域において大きな可能性を示してきた。しかし、このような顕著な進歩にもかかわらず、現在のモデルは、スタイルに一貫性のある画像生成を行う上で、いくつかの複雑な課題に取り組み続けています。第一に、スタイルの概念は本質的に未決定であり、色、素材、雰囲気、デザイン、構造などの多数の要素を包含する。第二に、反転ベースの手法はスタイルの劣化を引き起こしやすく、しばしばきめ細かなディテールが失われてしまいます。最後に、アダプタベースのアプローチでは、スタイルの強さとテキストの制御性のバランスを達成するために、各参照画像に対して綿密なウェイトチューニングが必要になることが多い。本論文では、まず、説得力がありながら見過ごされがちないくつかの観察結果を検証します。次に、InstantStyleを紹介します。InstantStyleは、2つの重要な戦略の実装を通じて、これらの問題に対処するように設計されたフレームワークです:1) 特徴空間内の参照画像からスタイルとコンテンツを切り離す簡単なメカニズム。2) 参照画像の特徴をスタイル固有のブロックにのみ注入することで、スタイルの漏れを防ぎ、よりパラメータが重い設計を特徴づけることが多い、面倒なウェイト調整の必要性を排除しています。私たちの研究は、スタイルの強さとテキスト要素の制御可能性の最適なバランスを保ちながら、優れた視覚的スタイル化の成果を実証しています。私たちのコードは、https://github.com/InstantStyle/InstantStyle。
要約(オリジナル)
Tuning-free diffusion-based models have demonstrated significant potential in the realm of image personalization and customization. However, despite this notable progress, current models continue to grapple with several complex challenges in producing style-consistent image generation. Firstly, the concept of style is inherently underdetermined, encompassing a multitude of elements such as color, material, atmosphere, design, and structure, among others. Secondly, inversion-based methods are prone to style degradation, often resulting in the loss of fine-grained details. Lastly, adapter-based approaches frequently require meticulous weight tuning for each reference image to achieve a balance between style intensity and text controllability. In this paper, we commence by examining several compelling yet frequently overlooked observations. We then proceed to introduce InstantStyle, a framework designed to address these issues through the implementation of two key strategies: 1) A straightforward mechanism that decouples style and content from reference images within the feature space, predicated on the assumption that features within the same space can be either added to or subtracted from one another. 2) The injection of reference image features exclusively into style-specific blocks, thereby preventing style leaks and eschewing the need for cumbersome weight tuning, which often characterizes more parameter-heavy designs.Our work demonstrates superior visual stylization outcomes, striking an optimal balance between the intensity of style and the controllability of textual elements. Our codes will be available at https://github.com/InstantStyle/InstantStyle.
arxiv情報
| 著者 | Haofan Wang,Qixun Wang,Xu Bai,Zekui Qin,Anthony Chen |
| 発行日 | 2024-04-03 13:34:09+00:00 |
| arxivサイト | arxiv_id(pdf) |