DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning

要約

【タイトル】DiffFit: シンプルなパラメータ効率の良いファインチューニングによる大規模拡散モデルの転移可能性の解除

【要約】
– 大規模拡散モデルは、高品質な画像を生成することができることが証明されている。しかし、大規模な事前学習された拡散モデルを新しいドメインに適応させることは、現実世界のアプリケーションにとって重要な課題である。
– 本論文は、新しいドメインに迅速に適応するための大規模な事前学習された拡散モデルのパラメータ効率の良いファインチューニング戦略であるDiffFitを提唱している。
– DiffFitは、特定のレイヤーでのバイアス項と新しく追加されたスケーリング要素のファインチューニングのみを行う、極めてシンプルな方法である。
– DiffFitは、全体的なファインチューニングと比較して、2倍のトレーニング速度向上を実現し、総モデルパラメータの約0.12%しか保持する必要がない。
– 直感的な理論分析により、スケーリング要素が迅速な適応に対して有効であることが証明されている。
– 8つのダウンストリームデータセットにおいて、DiffFitは、フルファインチューニングに比べてより効率的でありながら、優れたまたは競争力のある性能を発揮した。また、最小限のコストで事前に学習された低解像度の生成モデルを高解像度に適応させることができると示された。
– 拡散モデルに基づく手法の中では、DiffFitは、ImageNet 512×512ベンチマークでの新しい最高のFID(3.02)を、パブリックな事前学習済みのImageNet 256×256チェックポイントからの25エポックのみのファインチューニングで達成し、最も近い競合者よりも30倍以上効率が良い。

要約(オリジナル)

Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor.

arxiv情報

著者 Enze Xie,Lewei Yao,Han Shi,Zhili Liu,Daquan Zhou,Zhaoqiang Liu,Jiawei Li,Zhenguo Li
発行日 2023-04-20 12:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク