StyleDrop: Text-to-Image Generation in Any Style

要約

事前トレーニングされた大規模なテキストから画像へのモデルは、テキスト プロンプトを適切に使用して印象的な画像を合成します。
ただし、自然言語に固有のあいまいさと配布外の効果により、特定のデザイン パターン、テクスチャ、またはマテリアルを活用した画像スタイルを合成することが困難になります。
本稿では、テキストから画像へのモデルを使用して、特定のスタイルに忠実な画像を合成できる手法である StyleDrop を紹介します。
提案された方法は非常に汎用性が高く、配色、シェーディング、デザイン パターン、ローカルおよびグローバル効果など、ユーザーが指定したスタイルのニュアンスや詳細を捕捉します。
非常に少数のトレーニング可能なパラメーター (モデル パラメーター全体の $1\%$ 未満) を微調整し、人間によるフィードバックまたは自動フィードバックによる反復トレーニングによって品質を向上させることで、新しいスタイルを効率的に学習します。
さらに良いことに、StyleDrop は、ユーザーが希望のスタイルを指定する画像を 1 つだけ指定した場合でも、優れた結果を提供できます。
広範な調査により、テキストから画像へのモデルのスタイル調整タスクでは、Muse に実装された StyleDrop が、DreamBooth や Imagen または Stable Diffusion でのテキスト反転などの他の方法よりも確実に優れていることが示されています。
さらに多くの結果はプロジェクト Web サイトでご覧いただけます: https://styledrop.github.io

要約(オリジナル)

Pre-trained large text-to-image models synthesize impressive images with an appropriate use of text prompts. However, ambiguities inherent in natural language and out-of-distribution effects make it hard to synthesize image styles, that leverage a specific design pattern, texture or material. In this paper, we introduce StyleDrop, a method that enables the synthesis of images that faithfully follow a specific style using a text-to-image model. The proposed method is extremely versatile and captures nuances and details of a user-provided style, such as color schemes, shading, design patterns, and local and global effects. It efficiently learns a new style by fine-tuning very few trainable parameters (less than $1\%$ of total model parameters) and improving the quality via iterative training with either human or automated feedback. Better yet, StyleDrop is able to deliver impressive results even when the user supplies only a single image that specifies the desired style. An extensive study shows that, for the task of style tuning text-to-image models, StyleDrop implemented on Muse convincingly outperforms other methods, including DreamBooth and textual inversion on Imagen or Stable Diffusion. More results are available at our project website: https://styledrop.github.io

arxiv情報

著者 Kihyuk Sohn,Nataniel Ruiz,Kimin Lee,Daniel Castro Chin,Irina Blok,Huiwen Chang,Jarred Barber,Lu Jiang,Glenn Entis,Yuanzhen Li,Yuan Hao,Irfan Essa,Michael Rubinstein,Dilip Krishnan
発行日 2023-06-01 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク