Synthetic Data from Diffusion Models Improves ImageNet Classification

要約

タイトル:拡散モデルからの合成データによるImageNet分類の改善

要約:

– 深層生成モデルは、最近ではテキストの指示に従い多様で高品質なコンテンツを生成する力が向上している。
– 自然画像の生成モデルを用いたデータ拡張によって、教師あり学習タスクの改善に貢献できるかについて研究が行われた。
– 大規模なテキストから画像への拡散モデルを改良し、分類条件つきのモデルを作成した。
– このモデルでは、256×256解像度で1.76のFID、239のInception Scoreを達成し、分類精度スコアでもSOTA(64.96)を記録した。
– ImageNetトレーニングセットにこのモデルからのサンプルを追加することで、強力なResNetやVision Transformerのベースラインよりも、分類精度が大幅に向上することが示された。

要約(オリジナル)

Deep generative models are becoming increasingly powerful, now generating diverse high fidelity photo-realistic samples given text prompts. Have they reached the point where models of natural images can be used for generative data augmentation, helping to improve challenging discriminative tasks? We show that large-scale text-to image diffusion models can be fine-tuned to produce class conditional models with SOTA FID (1.76 at 256×256 resolution) and Inception Score (239 at 256×256). The model also yields a new SOTA in Classification Accuracy Scores (64.96 for 256×256 generative samples, improving to 69.24 for 1024×1024 samples). Augmenting the ImageNet training set with samples from the resulting models yields significant improvements in ImageNet classification accuracy over strong ResNet and Vision Transformer baselines.

arxiv情報

著者 Shekoofeh Azizi,Simon Kornblith,Chitwan Saharia,Mohammad Norouzi,David J. Fleet
発行日 2023-04-17 17:42:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク