ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models

要約

拡散モデルは画像生成には優れていますが、段階的にノイズ除去を行うため、生成速度が遅くなります。
一貫性トレーニングでは、シングルステップ サンプリングでこの問題に対処しますが、多くの場合、生成される品質は低く、トレーニング コストが高くなります。
この論文では、一貫性トレーニング損失を最適化すると、ターゲット分布と生成された分布の間の Wasserstein 距離が最小化されることを示します。
タイムステップが増加するにつれて、上限には以前の一貫性トレーニングの損失が蓄積されます。
したがって、電流損失と累積損失の両方を削減するには、より大きなバッチ サイズが必要になります。
我々は、弁別器を使用して各タイムステップでの分布間のジェンセン・シャノン(JS)の相違を直接最小化する敵対的一貫性トレーニング(ACT)を提案します。
理論的には、ACT は生成品質と収束性を向上させます。
整合性トレーニング フレームワークに弁別器を組み込むことにより、私たちの方法は CIFAR10、ImageNet 64$\times$64、および LSUN Cat 256$\times$256 データセットで FID スコアの向上を達成し、ゼロショット画像修復機能を保持し、使用コストは 1/6 ドル未満です
ベースライン手法と比較して、元のバッチ サイズの $1/2$ 未満のモデル パラメーターとトレーニング ステップより少ないため、リソース消費量が大幅に削減されます。
私たちのコードはhttps://github.com/kong13661/ACTから入手できます。

要約(オリジナル)

Though diffusion models excel in image generation, their step-by-step denoising leads to slow generation speeds. Consistency training addresses this issue with single-step sampling but often produces lower-quality generations and requires high training costs. In this paper, we show that optimizing consistency training loss minimizes the Wasserstein distance between target and generated distributions. As timestep increases, the upper bound accumulates previous consistency training losses. Therefore, larger batch sizes are needed to reduce both current and accumulated losses. We propose Adversarial Consistency Training (ACT), which directly minimizes the Jensen-Shannon (JS) divergence between distributions at each timestep using a discriminator. Theoretically, ACT enhances generation quality, and convergence. By incorporating a discriminator into the consistency training framework, our method achieves improved FID scores on CIFAR10 and ImageNet 64$\times$64 and LSUN Cat 256$\times$256 datasets, retains zero-shot image inpainting capabilities, and uses less than $1/6$ of the original batch size and fewer than $1/2$ of the model parameters and training steps compared to the baseline method, this leads to a substantial reduction in resource consumption. Our code is available:https://github.com/kong13661/ACT

arxiv情報

著者 Fei Kong,Jinhao Duan,Lichao Sun,Hao Cheng,Renjing Xu,Hengtao Shen,Xiaofeng Zhu,Xiaoshuang Shi,Kaidi Xu
発行日 2024-03-28 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク