要約
拡散モデルは、高品質の画像を生成するのに非常に効果的であることが証明されています。
ただし、事前にトレーニングされた大規模な拡散モデルを新しい領域に適応させることは依然として未解決の課題であり、これは現実世界のアプリケーションにとって重要です。
この論文では、新しい領域への迅速な適応を可能にする大規模な事前トレーニング済み拡散モデルを微調整するためのパラメーター効率の高い戦略である DiffFit を提案します。
DiffFit は恥ずかしいほどシンプルで、特定のレイヤーでバイアス項と新しく追加されたスケーリング係数を微調整するだけですが、その結果、トレーニングの速度が大幅に向上し、モデルのストレージ コストが削減されます。
完全な微調整と比較して、DiffFit は 2$\times$ のトレーニング速度向上を達成し、保存する必要があるのはモデル パラメーター全体の約 0.12\% だけです。
迅速な適応に対するスケーリング係数の有効性を正当化するために、直感的な理論分析が提供されています。
8 つのダウンストリーム データセット上で、DiffFit は、完全な微調整と比較して、より効率的でありながら、優れたまたは競争力のあるパフォーマンスを実現します。
注目すべきことに、DiffFit は最小限のコストを追加することで、事前トレーニングされた低解像度の生成モデルを高解像度の生成モデルに適応させることができることを示しています。
拡散ベースの手法の中で、DiffFit は、公開されている事前トレーニングされた ImageNet 256$\times$256 チェックポイントから 25 エポックのみを微調整することで、ImageNet 512$\times$512 ベンチマークで新しい最先端の FID 3.02 を設定します。
最も近い競合他社よりも 30 ドル \ 倍のトレーニング効率が得られます。
要約(オリジナル)
Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor.
arxiv情報
著者 | Enze Xie,Lewei Yao,Han Shi,Zhili Liu,Daquan Zhou,Zhaoqiang Liu,Jiawei Li,Zhenguo Li |
発行日 | 2023-07-27 12:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google