Diffusion Soup: Model Merging for Text-to-Image Diffusion Models

要約

シャーディングされたデータでトレーニングされた拡散モデルの重みを平均する、テキストから画像への生成のための区分化手法である拡散スープを紹介します。
その構築により、私たちのアプローチは、再平均化によってデータシャードに対応するモデルを追加または削除できるため、追加のメモリや推論コストを必要とせずに、トレーニング不要の継続的な学習と非学習を可能にします。
Diffusion Soup が、構成データセットの分布の幾何平均に近似するウェイト空間内の点からサンプリングすることにより、反記憶化が保証され、ゼロショット スタイルの混合が可能になることを示します。
経験的に、Diffusion Soup は、すべてのデータ シャードの結合でトレーニングされたパラゴン モデルよりも優れたパフォーマンスを示し、ドメイン シャード データで画像報酬 (.34 $\to$ .44) で 30% の向上、および IR (.37) で 59% の向上を達成しました。
$\to$ 0.59) の美的データ。
どちらの場合も、スープは TIFA スコアでも優勢です (それぞれ、85.5 $\to$ 86.5 と 85.6 $\to$ 86.8)。
私たちは、堅牢なアンラーニングを実証し、個々のドメイン シャードを削除しても、IR でのパフォーマンスは 1% (.45 $\to$ 0.44) しか低下しません。また、実際のデータを使用して、反記憶に関する理論的洞察を検証します。
最後に、異なるシャードで微調整されたモデルの異なるスタイルをブレンドし、ハイブリッド スタイルをゼロショットで生成する Diffusion Soup の機能を紹介します。

要約(オリジナル)

We present Diffusion Soup, a compartmentalization method for Text-to-Image Generation that averages the weights of diffusion models trained on sharded data. By construction, our approach enables training-free continual learning and unlearning with no additional memory or inference costs, since models corresponding to data shards can be added or removed by re-averaging. We show that Diffusion Soup samples from a point in weight space that approximates the geometric mean of the distributions of constituent datasets, which offers anti-memorization guarantees and enables zero-shot style mixing. Empirically, Diffusion Soup outperforms a paragon model trained on the union of all data shards and achieves a 30% improvement in Image Reward (.34 $\to$ .44) on domain sharded data, and a 59% improvement in IR (.37 $\to$ .59) on aesthetic data. In both cases, souping also prevails in TIFA score (respectively, 85.5 $\to$ 86.5 and 85.6 $\to$ 86.8). We demonstrate robust unlearning — removing any individual domain shard only lowers performance by 1% in IR (.45 $\to$ .44) — and validate our theoretical insights on anti-memorization using real data. Finally, we showcase Diffusion Soup’s ability to blend the distinct styles of models finetuned on different shards, resulting in the zero-shot generation of hybrid styles.

arxiv情報

著者 Benjamin Biggs,Arjun Seshadri,Yang Zou,Achin Jain,Aditya Golatkar,Yusheng Xie,Alessandro Achille,Ashwin Swaminathan,Stefano Soatto
発行日 2024-06-12 17:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク