FineDiffusion: Scaling up Diffusion Models for Fine-grained Image Generation with 10,000 Classes

要約

拡散モデルに基づくクラス条件付き画像生成は、高品質で多様な画像を生成することで知られています。
しかし、これまでの取り組みのほとんどは、一般的なカテゴリ、たとえば ImageNet-1k の 1000 クラスの画像を生成することに重点を置いています。
より困難なタスクである大規模なきめの細かい画像生成は、依然として探索すべき境界線です。
この研究では、10,000 カテゴリの大規模なきめの細かい画像生成にスケーリングする大規模な事前トレーニング済み拡散モデルを微調整する、FineDiffusion と呼ばれるパラメーター効率の高い戦略を紹介します。
FineDiffusion は、階層型クラス エンベッダー、バイアス項、正規化層のパラメーターを微調整するだけで、トレーニングを大幅に加速し、ストレージのオーバーヘッドを削減します。
きめの細かいカテゴリの画像生成品質をさらに向上させるために、従来の分類子を使用しないガイダンス サンプリングに代わる、きめの細かいカテゴリに特化して調整されたスーパークラス条件付きガイダンスを利用する、きめの細かい画像生成のための新しいサンプリング方法を提案します。

完全な微調整と比較して、FineDiffusion は 1.56 倍の顕著なトレーニング速度向上を達成し、保存する必要があるモデル パラメーター全体のわずか 1.77% を必要とし、10,000 クラスの画像生成で 9.776 という最先端の FID を達成します。
広範な定性的および定量的実験により、他のパラメーター効率の高い微調整方法と比較して、私たちの方法の優位性が実証されています。
コードとその他の生成された結果は、プロジェクト Web サイト (https://finediffusion.github.io/) で入手できます。

要約(オリジナル)

The class-conditional image generation based on diffusion models is renowned for generating high-quality and diverse images. However, most prior efforts focus on generating images for general categories, e.g., 1000 classes in ImageNet-1k. A more challenging task, large-scale fine-grained image generation, remains the boundary to explore. In this work, we present a parameter-efficient strategy, called FineDiffusion, to fine-tune large pre-trained diffusion models scaling to large-scale fine-grained image generation with 10,000 categories. FineDiffusion significantly accelerates training and reduces storage overhead by only fine-tuning tiered class embedder, bias terms, and normalization layers’ parameters. To further improve the image generation quality of fine-grained categories, we propose a novel sampling method for fine-grained image generation, which utilizes superclass-conditioned guidance, specifically tailored for fine-grained categories, to replace the conventional classifier-free guidance sampling. Compared to full fine-tuning, FineDiffusion achieves a remarkable 1.56x training speed-up and requires storing merely 1.77% of the total model parameters, while achieving state-of-the-art FID of 9.776 on image generation of 10,000 classes. Extensive qualitative and quantitative experiments demonstrate the superiority of our method compared to other parameter-efficient fine-tuning methods. The code and more generated results are available at our project website: https://finediffusion.github.io/.

arxiv情報

著者 Ziying Pan,Kun Wang,Gang Li,Feihong He,Xiwang Li,Yongxuan Lai
発行日 2024-02-28 13:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク