Input Perturbation Reduces Exposure Bias in Diffusion Models

要約

ノイズ除去拡散確率モデルは、長いサンプリング チェーンが高い計算コストにつながるにもかかわらず、印象的な生成品質を示しています。
この論文では、長いサンプリング チェーンも誤差の蓄積現象につながることを観察しました。これは、自己回帰テキスト生成における \textbf{露出バイアス} 問題に似ています。
具体的には、トレーニングとテストの間に不一致があることに注意してください。前者はグラウンド トゥルース サンプルに基づいて調整されているのに対し、後者は以前に生成された結果に基づいて調整されているためです。
この問題を軽減するために、推論時間の予測誤差をシミュレートするためにグラウンド トゥルース サンプルを摂動することからなる、非常に単純だが効果的なトレーニング正則化を提案します。
提案された入力摂動が、トレーニング時間と推論時間の両方を削減しながら、サンプル品質の大幅な改善につながることを経験的に示しています。
たとえば、CelebA 64$\times$64 では、トレーニング時間を 37.5% 節約しながら、最先端の FID スコア 1.27 を達成しています。

要約(オリジナル)

Denoising Diffusion Probabilistic Models have shown an impressive generation quality, although their long sampling chain leads to high computational costs. In this paper, we observe that a long sampling chain also leads to an error accumulation phenomenon, which is similar to the \textbf{exposure bias} problem in autoregressive text generation. Specifically, we note that there is a discrepancy between training and testing, since the former is conditioned on the ground truth samples, while the latter is conditioned on the previously generated results. To alleviate this problem, we propose a very simple but effective training regularization, consisting in perturbing the ground truth samples to simulate the inference time prediction errors. We empirically show that the proposed input perturbation leads to a significant improvement of the sample quality while reducing both the training and the inference times. For instance, on CelebA 64$\times$64, we achieve a new state-of-the-art FID score of 1.27, while saving 37.5% of the training time.

arxiv情報

著者 Mang Ning,Enver Sangineto,Angelo Porrello,Simone Calderara,Rita Cucchiara
発行日 2023-01-27 13:34:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク