要約
タイトル:テキストから画像への拡散モデルのための識別トークン
要約:
– テキストから画像への拡散モデルは、多様で高品質な画像の生成に成功しています。しかし、生成された画像には微妙なディテールが欠けることがあり、入力テキストの不明瞭さを原因としたエラーにも弱くなっています。
– これらの問題を緩和する方法の1つは、分類ラベルの付いたデータセットで拡散モデルをトレーニングすることです。しかし、この方法には下記の問題があります。
– 監視されたデータセットは、通常、テキストから画像モデルがトレーニングされる大規模なスクレイピングテキスト-画像データセットに比べて小さいため、生成された画像の品質と多様性が深刻な影響を受けます。
– 入力は、自由形式のテキストではなく、ハードコードされたラベルであるため、生成された画像の操作が制限されます。
– 本研究では、先行学習された分類器からの識別的信号によって高精度を達成しながら、自由形式のテキストの表現的潜在力を生かすための非侵襲的な微調整手法を提案しています。これは、テキストから画像への拡散モデルの単一の入力トークンの埋め込みを、分類器を使用して反復的に修正することで、生成された画像を所望のターゲットクラスに向けて導くという方法で行います。
– この方法は、従来の微調整手法に比べて高速であり、分類器内の画像コレクションやノイズに対する訓練クラス分類器の再訓練を必要としません。評価により、生成された画像は次のようになります。
– (i) 標準的な拡散モデルよりも高精度で高品質であること。
– (ii) 低リソース設定でトレーニングデータを拡張することができること。
– (iii) ガイド分類器をトレーニングするために使用されたデータに関する情報を明らかにすることができること。
– 本研究のコードは、\url{https://github.com/idansc/discriminative_class_tokens}で公開されています。
要約(オリジナル)
Recent advances in text-to-image diffusion models have enabled the generation of diverse and high-quality images. However, generated images often fall short of depicting subtle details and are susceptible to errors due to ambiguity in the input text. One way of alleviating these issues is to train diffusion models on class-labeled datasets. This comes with a downside, doing so limits their expressive power: (i) supervised datasets are generally small compared to large-scale scraped text-image datasets on which text-to-image models are trained, and so the quality and diversity of generated images are severely affected, or (ii) the input is a hard-coded label, as opposed to free-form text, which limits the control over the generated images. In this work, we propose a non-invasive fine-tuning technique that capitalizes on the expressive potential of free-form text while achieving high accuracy through discriminative signals from a pretrained classifier, which guides the generation. This is done by iteratively modifying the embedding of a single input token of a text-to-image diffusion model, using the classifier, by steering generated images toward a given target class. Our method is fast compared to prior fine-tuning methods and does not require a collection of in-class images or retraining of a noise-tolerant classifier. We evaluate our method extensively, showing that the generated images are: (i) more accurate and of higher quality than standard diffusion models, (ii) can be used to augment training data in a low-resource setting, and (iii) reveal information about the data used to train the guiding classifier. The code is available at \url{https://github.com/idansc/discriminative_class_tokens}
arxiv情報
著者 | Idan Schwartz,Vésteinn Snæbjarnarson,Sagie Benaim,Hila Chefer,Ryan Cotterell,Lior Wolf,Serge Belongie |
発行日 | 2023-03-30 05:25:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI