Training on Thin Air: Improve Image Classification with Generated Data

要約

識別モデルをトレーニングするための高品質のデータを取得することは、効果的な予測システムを構築する上で重要かつ困難な側面です。
この論文では、事前トレーニングされた生成モデルである安定拡散を活用して、画像分類用の多様で高品質なトレーニング データを生成する、シンプルかつ効果的な方法である拡散反転を紹介します。
私たちのアプローチは、元のデータ分布をキャプチャし、安定拡散の潜在空間に画像を反転することによってデータ カバレッジを確保し、これらのベクトルのノイズの多いバージョンで生成モデルを条件付けすることによって、多様な新しいトレーニング画像を生成します。
生成された画像が元のデータセットに取って代わることを可能にする 3 つの重要なコンポーネントを特定します。これにより、サンプルの複雑さが 2 ~ 3 倍向上し、サンプリング時間が 6.5 倍短縮されます。
さらに、私たちのアプローチは、幅広いデータセットにわたって、一般的なプロンプトベースのステアリング手法や KNN 検索ベースラインを常に上回っています。
さらに、広く使用されているデータ拡張技術と私たちのアプローチの互換性、およびさまざまなニューラル アーキテクチャのサポートと少数ショット学習の強化における生成データの信頼性を実証します。

要約(オリジナル)

Acquiring high-quality data for training discriminative models is a crucial yet challenging aspect of building effective predictive systems. In this paper, we present Diffusion Inversion, a simple yet effective method that leverages the pre-trained generative model, Stable Diffusion, to generate diverse, high-quality training data for image classification. Our approach captures the original data distribution and ensures data coverage by inverting images to the latent space of Stable Diffusion, and generates diverse novel training images by conditioning the generative model on noisy versions of these vectors. We identify three key components that allow our generated images to successfully supplant the original dataset, leading to a 2-3x enhancement in sample complexity and a 6.5x decrease in sampling time. Moreover, our approach consistently outperforms generic prompt-based steering methods and KNN retrieval baseline across a wide range of datasets. Additionally, we demonstrate the compatibility of our approach with widely-used data augmentation techniques, as well as the reliability of the generated data in supporting various neural architectures and enhancing few-shot learning.

arxiv情報

著者 Yongchao Zhou,Hshmat Sahak,Jimmy Ba
発行日 2023-05-24 16:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク