Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

要約

低品質または希少なデータは、実際にディープ ニューラル ネットワークをトレーニングする際に大きな課題を引き起こしています。
従来のデータ拡張ではまったく異なる新しいデータを提供することはできませんが、拡散モデルは、テキストガイドによるプロンプトを通じて高品質で多様な合成データを生成することにより、自己進化する AI を構築するための新たな扉を開きます。
ただし、テキストのみのガイダンスでは、合成画像と元の画像の近接性を制御できないため、分布外のデータがモデルのパフォーマンスに悪影響を及ぼします。
この制限を克服するために、私たちは合成画像と実際の画像の間の補間スペクトルを実現するための画像ガイダンスを研究しています。
強力な画像ガイダンスを使用すると、生成された画像はトレーニング データに似ていますが、学習するのは困難です。
画像ガイダンスが弱い場合、合成画像はモデル化が容易になりますが、元のデータとの分布ギャップが大きくなります。
生成された全範囲のデータにより、新しい「拡散カリキュラム (DisCL)」を構築することができます。
DisCL は、トレーニング段階ごとに画像合成の画像ガイダンス レベルを調整します。モデルのハード サンプルを特定してそれに焦点を当て、ハード データ学習を向上させるために合成画像の最も効果的なガイダンス レベルを評価します。
私たちは DisCL を、ロングテール (LT) 分類と低品質データからの学習という 2 つの困難なタスクに適用します。
多様性や品質が弱い可能性のある高ガイダンス画像の学習のウォームアップとして、プロトタイプの特徴を学習するために、高品質の低ガイダンス画像に焦点を当てます。
広範な実験により、DisCL を iWildCam データセットに適用すると、OOD と ID のマクロ精度が 2.7% および 2.1% 向上することが示されました。
ImageNet-LT では、DisCL は基本モデルのテールクラス精度を 4.4% から 23.64% に向上させ、全クラス精度の 4.02% 向上につながります。

要約(オリジナル)

Low-quality or scarce data has posed significant challenges for training deep neural networks in practice. While classical data augmentation cannot contribute very different new data, diffusion models opens up a new door to build self-evolving AI by generating high-quality and diverse synthetic data through text-guided prompts. However, text-only guidance cannot control synthetic images’ proximity to the original images, resulting in out-of-distribution data detrimental to the model performance. To overcome the limitation, we study image guidance to achieve a spectrum of interpolations between synthetic and real images. With stronger image guidance, the generated images are similar to the training data but hard to learn. While with weaker image guidance, the synthetic images will be easier for model but contribute to a larger distribution gap with the original data. The generated full spectrum of data enables us to build a novel ‘Diffusion Curriculum (DisCL)’. DisCL adjusts the image guidance level of image synthesis for each training stage: It identifies and focuses on hard samples for the model and assesses the most effective guidance level of synthetic images to improve hard data learning. We apply DisCL to two challenging tasks: long-tail (LT) classification and learning from low-quality data. It focuses on lower-guidance images of high-quality to learn prototypical features as a warm-up of learning higher-guidance images that might be weak on diversity or quality. Extensive experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base model’s tail-class accuracy from 4.4% to 23.64% and leads to a 4.02% improvement in all-class accuracy.

arxiv情報

著者 Yijun Liang,Shweta Bhardwaj,Tianyi Zhou
発行日 2024-10-18 03:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク