DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning

要約

タイトル:シンプルなパラメータ効率の良いFine-Tuningによる大規模拡散モデルの移植性の解放

要約:
– 拡散モデルは、高品質な画像を生成する上で非常に効果的であることが証明されている。
– しかし、大きな事前学習済みの拡散モデルを新しいドメインに適応させることは容易ではなく、実世界のアプリケーションにとって重要な課題である。
– 本論文は、新しいドメインへの高速な適応を可能にする大規模な事前学習済みの拡散モデルをFine-Tuneするためのパラメータ効率の良い戦略であるDiffFitを提案している。
– DiffFitは、特定の層におけるバイアス項と新たに追加されたスケーリング係数だけをFine-Tuneするという驚くほどシンプルなもので、トレーニングスピードアップとモデルのストレージコストの削減をもたらす。
– DiffFitは、完全なFine-Tuneと比較して、トレーニングスピードアップを2倍にし、総モデルパラメータのおよそ0.12%だけを保存するだけで十分である。
– スケーリング係数の効果を正当化する直感的な理論分析が提供されている。
– 8つの下流データセットで、DiffFitは完全なFine-Tuneと比較して、より効率的でありながら、優れたパフォーマンスを発揮している。
– 特筆すべきことに、DiffFitは追加コストを最小限に抑えて、事前学習済みの低解像度生成モデルを高解像度に適応させることができることが示された。
– DiffFitは、拡散ベースの方法の中で、ImageNet512×512ベンチマークで3.02のFIDを達成し、最も近い競合相手よりも30倍以上のトレーニング効率の良さを発揮している。

要約(オリジナル)

Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor.

arxiv情報

著者 Enze Xie,Lewei Yao,Han Shi,Zhili Liu,Daquan Zhou,Zhaoqiang Liu,Jiawei Li,Zhenguo Li
発行日 2023-04-13 16:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク