要約
平均二乗誤差損失で訓練された拡散モデルは、非現実的なサンプルを生成する傾向がある。現在の最先端モデルは、サンプルの質を向上させるために分類器を使わないガイダンスに依存しているが、その驚くべき有効性は完全には理解されていない。本稿では、分類器を用いないガイダンスの有効性は、それが暗黙の知覚ガイダンスの一形態であることに部分的に由来することを示す。その結果、サンプルの品質を向上させるために、知覚的損失を拡散学習に直接組み込むことができる。拡散トレーニングで用いられるスコアマッチングの目的は、知覚ネットワークの教師なしトレーニングで用いられるノイズ除去オートエンコーダの目的に強く似ているため、拡散モデル自体が知覚ネットワークであり、意味のある知覚損失を生成するために用いることができる。我々は、より現実的なサンプルを生成できる拡散モデルをもたらす、新しい自己知覚目的を提案する。条件付き生成の場合、我々の方法は条件付き入力との絡み合いを伴わずにサンプルの品質のみを向上させるので、サンプルの多様性を犠牲にすることはない。本手法は無条件生成においてもサンプルの質を向上させることが可能であり、これはこれまでの分類器なしガイダンスでは不可能であった。
要約(オリジナル)
Diffusion models trained with mean squared error loss tend to generate unrealistic samples. Current state-of-the-art models rely on classifier-free guidance to improve sample quality, yet its surprising effectiveness is not fully understood. In this paper, We show that the effectiveness of classifier-free guidance partly originates from it being a form of implicit perceptual guidance. As a result, we can directly incorporate perceptual loss in diffusion training to improve sample quality. Since the score matching objective used in diffusion training strongly resembles the denoising autoencoder objective used in unsupervised training of perceptual networks, the diffusion model itself is a perceptual network and can be used to generate meaningful perceptual loss. We propose a novel self-perceptual objective that results in diffusion models capable of generating more realistic samples. For conditional generation, our method only improves sample quality without entanglement with the conditional input and therefore does not sacrifice sample diversity. Our method can also improve sample quality for unconditional generation, which was not possible with classifier-free guidance before.
arxiv情報
著者 | Shanchuan Lin,Xiao Yang |
発行日 | 2024-01-03 10:12:30+00:00 |
arxivサイト | arxiv_id(pdf) |