It is all about where you start: Text-to-image generation with seed selection

要約

タイトル:Seed Selectionを用いたテキストから画像生成

要約:

– テキストから画像生成の拡散モデルは、新しい構成やシナリオの多様な概念を合成することができるが、 uncommon conceptsやrare unusual combinations、手のひらなどの構造的な概念の生成はまだ課題である。
– この問題は、トレーニングデータのロングテール性によるものである。Webクロールされたデータセットは、強くバランスが取れていないため、分布のテールからの概念を不適切に表現してしまうためである。
– 本論文では、SeedSelectという手法を提案し、トレーニングデータの不均衡性がテキストから画像モデルに与える影響を特徴付け、改善する方法を示している。SeedSelectは、ノイズ空間で適切な生成シードを注意深く選択することによって、レアな概念を正しく生成することができる。
– SeedSelectは効率的であり、拡散モデルの再トレーニングを必要としないため、有用である。SeedSelectの効果を評価するために、数ショットセマンティックデータ拡張の問題を取り上げ、少数のショットとロングテールベンチマーク用の意味のある画像を生成する。これにより、diffusion modelのトレーニングデータのheadとtailの両方から、全てのクラスの分類の向上が見られる。
– さらに、SeedSelectを手の画像の修正に適用し、現在の拡散モデルの課題である手の生成を改善することを示している。

要約(オリジナル)

Text-to-image diffusion models can synthesize a large variety of concepts in new compositions and scenarios. However, they still struggle with generating uncommon concepts, rare unusual combinations, or structured concepts like hand palms. Their limitation is partly due to the long-tail nature of their training data: web-crawled data sets are strongly unbalanced, causing models to under-represent concepts from the tail of the distribution. Here we characterize the effect of unbalanced training data on text-to-image models and offer a remedy. We show that rare concepts can be correctly generated by carefully selecting suitable generation seeds in the noise space, a technique that we call SeedSelect. SeedSelect is efficient and does not require retraining the diffusion model. We evaluate the benefit of SeedSelect on a series of problems. First, in few-shot semantic data augmentation, where we generate semantically correct images for few-shot and long-tail benchmarks. We show classification improvement on all classes, both from the head and tail of the training data of diffusion models. We further evaluate SeedSelect on correcting images of hands, a well-known pitfall of current diffusion models, and show that it improves hand generation substantially.

arxiv情報

著者 Dvir Samuel,Rami Ben-Ari,Simon Raviv,Nir Darshan,Gal Chechik
発行日 2023-04-27 20:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク