Scaling Laws of Synthetic Images for Model Training … for Now

要約

テキストから画像へのモデルにおける最近の大幅な進歩により、合成画像を使用して視覚システムをトレーニングする可能性が解放され、厳選されたデータを大規模に収集する困難が克服される可能性があります。
ただし、より多くの合成データがトレーニング セットに追加されるため、これらのモデルが大規模にどのように動作するかは不明です。
この論文では、教師ありモデル(ラベル監視付きの画像分類器と言語監視付きの CLIP)のトレーニングのために、最先端のテキストから画像へのモデルによって生成された合成画像のスケーリング則を研究します。
私たちは、テキスト プロンプト、分類子を使用しないガイダンス スケール、テキストから画像へのモデルの種類など、スケーリング動作に大きな影響を与えるいくつかの要因を特定します。
これらの要素を調整した後、合成画像は、CLIP トレーニングでは実際の画像と同様のスケーリング傾向を示しますが、効果はわずかに劣りますが、教師あり画像分類器をトレーニングする場合はスケーリングのパフォーマンスが大幅に低下することがわかりました。
私たちの分析によると、このパフォーマンス低下の主な理由は、既製のテキストから画像へのモデルでは特定の概念を生成できないことであり、この制限により画像分類器のトレーニングが著しく損なわれることが示されています。
私たちの調査結果は、合成データのスケーリングが次のようなシナリオで特に効果的であることも示唆しています: (1) 教師付き問題に対する実際の画像の供給が限られている場合 (たとえば、ImageNet 内の画像が 50 万枚未満)、(2)
評価データセットがトレーニング データから大きく乖離していることは、分布外シナリオ、または (3) CLIP モデルのトレーニングで実証されているように、合成データが実際の画像と組み合わせて使用​​されている場合を示しています。

要約(オリジナル)

Recent significant advances in text-to-image models unlock the possibility of training vision systems using synthetic images, potentially overcoming the difficulty of collecting curated data at scale. It is unclear, however, how these models behave at scale, as more synthetic data is added to the training set. In this paper we study the scaling laws of synthetic images generated by state of the art text-to-image models, for the training of supervised models: image classifiers with label supervision, and CLIP with language supervision. We identify several factors, including text prompts, classifier-free guidance scale, and types of text-to-image models, that significantly affect scaling behavior. After tuning these factors, we observe that synthetic images demonstrate a scaling trend similar to, but slightly less effective than, real images in CLIP training, while they significantly underperform in scaling when training supervised image classifiers. Our analysis indicates that the main reason for this underperformance is the inability of off-the-shelf text-to-image models to generate certain concepts, a limitation that significantly impairs the training of image classifiers. Our findings also suggest that scaling synthetic data can be particularly effective in scenarios such as: (1) when there is a limited supply of real images for a supervised problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the evaluation dataset diverges significantly from the training data, indicating the out-of-distribution scenario, or (3) when synthetic data is used in conjunction with real images, as demonstrated in the training of CLIP models.

arxiv情報

著者 Lijie Fan,Kaifeng Chen,Dilip Krishnan,Dina Katabi,Phillip Isola,Yonglong Tian
発行日 2023-12-07 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク