Fake it till you make it: Learning(s) from a synthetic ImageNet clone

要約

Stable Diffusion などの最近の大規模な画像生成モデルは、非常に単純なテキスト プロンプトから開始して、かなりリアルな画像を生成する優れた能力を示しています。
そのようなモデルは、画像予測モデルをトレーニングするために実際の画像を時代遅れにすることができますか?
このホワイト ペーパーでは、ImageNet 分類のモデルをトレーニングする際に実際の画像が必要かどうかを疑問視することで、この挑発的な質問の一部に答えます。
より正確には、データセットの構築に使用されたクラス名のみを提供して、ImageNet の合成クローンを生成する Stable Diffusion の機能を調べ、それらが分類モデルをゼロからトレーニングするのにどれほど役立つかを測定します。
最小限でクラスにとらわれない迅速なエンジニアリングにより、ImageNet-SD と呼ばれる ImageNet クローンは、合成画像によって生成されたモデルと、いくつかの標準的な分類ベンチマークについて実際の画像でトレーニングされたモデルとの間のギャップの大部分を埋めることができることを示します。
この研究で考慮します。
さらに重要なことは、合成画像でトレーニングされたモデルが強力な汎化特性を示し、実際のデータでトレーニングされたモデルと同等のパフォーマンスを示すことです。

要約(オリジナル)

Recent large-scale image generation models such as Stable Diffusion have exhibited an impressive ability to generate fairly realistic images starting from a very simple text prompt. Could such models render real images obsolete for training image prediction models? In this paper, we answer part of this provocative question by questioning the need for real images when training models for ImageNet classification. More precisely, provided only with the class names that have been used to build the dataset, we explore the ability of Stable Diffusion to generate synthetic clones of ImageNet and measure how useful they are for training classification models from scratch. We show that with minimal and class-agnostic prompt engineering those ImageNet clones we denote as ImageNet-SD are able to close a large part of the gap between models produced by synthetic images and models trained with real images for the several standard classification benchmarks that we consider in this study. More importantly, we show that models trained on synthetic images exhibit strong generalization properties and perform on par with models trained on real data.

arxiv情報

著者 Mert Bulent Sariyildiz,Karteek Alahari,Diane Larlus,Yannis Kalantidis
発行日 2022-12-16 11:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク