要約
【タイトル】
DiffFit: 簡単なパラメータ効率の良いファインチューニングにより、大きなディフュージョンモデルの転移性を拡張する
【要約】
– ディフュージョンモデルは、高品質な画像の生成において高い効果を発揮している。
– しかし、大規模な事前学習済みディフュージョンモデルを新しいドメインに適応させることは、現実世界のアプリケーションにとって重要な課題である。
– この論文では、新しいドメインに迅速に適応できる大規模な事前学習済みディフュージョンモデルをファインチューニングするためのパラメータ効率の良い戦略であるDiffFitを提案する。
– DiffFitは非常にシンプルで、特定のレイヤーでバイアス項と新たに追加されたスケーリング係数しかファインチューニングしないが、大幅なトレーニングスピードアップとモデルストレージコストの削減を実現することができる。
– 全体的なファインチューニングと比較して、DiffFitは2倍のトレーニングスピードアップを実現し、約0.12%の総モデルパラメータしか保存する必要がない。
– 迅速な適応にスケーリング係数が有効であることを正当化する直感的な理論的分析が提供されている。
– 8つの下流データセットにおいて、DiffFitは、より効率的でありながら、全体的なファインチューニングよりも優れたあるいは競合するパフォーマンスを発揮する。
– 注目すべきことに、DiffFitは、最小限のコストを追加するだけで、事前学習された低解像度の生成モデルを高解像度のモデルに適応させることができることが示されている。
– ディフュージョンベースの方法の中で、DiffFitは、ImageNet 512×512ベンチマークで、パブリックで事前学習されたImageNet 256×256チェックポイントからわずか25エポックのファインチューニングで、最もトレーニング効率が良い競合と比較して、3.02のFIDの新しい最高性能を発揮する。
要約(オリジナル)
Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor.
arxiv情報
著者 | Enze Xie,Lewei Yao,Han Shi,Zhili Liu,Daquan Zhou,Zhaoqiang Liu,Jiawei Li,Zhenguo Li |
発行日 | 2023-04-25 11:57:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI