要約
平均二乗誤差損失でトレーニングされた拡散モデルは、非現実的なサンプルを生成する傾向があります。
現在の最先端のモデルは、サンプル品質を向上させるために分類子を使用しないガイダンスに依存していますが、その驚くべき有効性は完全には理解されていません。
この論文では、分類子を使用しないガイダンスの有効性の一部は、それが暗黙的な知覚ガイダンスの一形態であることに由来していることを示します。
その結果、知覚損失を拡散トレーニングに直接組み込んでサンプルの品質を向上させることができます。
拡散トレーニングで使用されるスコア マッチング目標は、知覚ネットワークの教師なしトレーニングで使用されるノイズ除去オートエンコーダの目標とよく似ているため、拡散モデル自体が知覚ネットワークであり、意味のある知覚損失を生成するために使用できます。
我々は、より現実的なサンプルを生成できる拡散モデルをもたらす、新しい自己知覚目標を提案します。
条件付き生成の場合、私たちの方法は条件付き入力との絡みなしでサンプルの品質を向上させるだけなので、サンプルの多様性は犠牲になりません。
私たちの方法では、無条件生成のサンプル品質を向上させることもできます。これは、以前の分類子なしのガイダンスでは不可能でした。
要約(オリジナル)
Diffusion models trained with mean squared error loss tend to generate unrealistic samples. Current state-of-the-art models rely on classifier-free guidance to improve sample quality, yet its surprising effectiveness is not fully understood. In this paper, we show that the effectiveness of classifier-free guidance partly originates from it being a form of implicit perceptual guidance. As a result, we can directly incorporate perceptual loss in diffusion training to improve sample quality. Since the score matching objective used in diffusion training strongly resembles the denoising autoencoder objective used in unsupervised training of perceptual networks, the diffusion model itself is a perceptual network and can be used to generate meaningful perceptual loss. We propose a novel self-perceptual objective that results in diffusion models capable of generating more realistic samples. For conditional generation, our method only improves sample quality without entanglement with the conditional input and therefore does not sacrifice sample diversity. Our method can also improve sample quality for unconditional generation, which was not possible with classifier-free guidance before.
arxiv情報
著者 | Shanchuan Lin,Xiao Yang |
発行日 | 2024-02-26 06:58:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google