Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps

要約

拡散確率モデル (DPM) は、高品質の画像の合成において顕著な効果を示しています。
ただし、その推論プロセスは特徴的に、多数、場合によっては数百の反復ステップを必要とするため、トレーニングと推論の不一致による露出バイアスの問題が誇張される可能性があります。
これまでの研究では、トレーニング中に入力を混乱させることでこの問題を軽減しようとしましたが、その結果、DPM の再トレーニングが必要になりました。
この研究では、DPM における露出バイアスの体系的な研究を実施しました。そして、興味深いことに、モデルを再トレーニングすることなく、露出バイアスが私たちが提案する新しいサンプリング方法で軽減できることがわかりました。
推論中に、各逆方向タイム ステップ $t$ と対応する状態 $\hat{x}_t$ に対して、$\hat{x} との優れた結合を示す別のタイム ステップ $t_s$ が存在する可能性があることを経験的および理論的に示します。
_t$。
この発見に基づいて、Time-Shift Sampler と呼ばれるサンプリング方法を導入します。
私たちのフレームワークは、DDPM、DDIM、その他の高次ソルバーなどの既存のサンプリング アルゴリズムにシームレスに統合でき、追加の計算は最小限で済みます。
実験結果は、私たちの方法がさまざまなデータセットやサンプリング方法で FID スコアに大幅かつ一貫した改善をもたらすことを示しています。
たとえば、Time-Shift Sampler を F-PNDM に統合すると、CIFAR-10 で 10 サンプリング ステップの場合、FID=3.88 が得られ、F-PNDM と比較して 44.49\% の改善を達成します。これは、100 サンプリングの通常の DDIM よりもパフォーマンスが高くなります。
ステップ。
承認され次第、コードを公開します。

要約(オリジナル)

Diffusion Probabilistic Models (DPM) have shown remarkable efficacy in the synthesis of high-quality images. However, their inference process characteristically requires numerous, potentially hundreds, of iterative steps, which could exaggerate the problem of exposure bias due to the training and inference discrepancy. Previous work has attempted to mitigate this issue by perturbing inputs during training, which consequently mandates the retraining of the DPM. In this work, we conduct a systematic study of exposure bias in DPM and, intriguingly, we find that the exposure bias could be alleviated with a novel sampling method that we propose, without retraining the model. We empirically and theoretically show that, during inference, for each backward time step $t$ and corresponding state $\hat{x}_t$, there might exist another time step $t_s$ which exhibits superior coupling with $\hat{x}_t$. Based on this finding, we introduce a sampling method named Time-Shift Sampler. Our framework can be seamlessly integrated to existing sampling algorithms, such as DDPM, DDIM and other high-order solvers, inducing merely minimal additional computations. Experimental results show our method brings significant and consistent improvements in FID scores on different datasets and sampling methods. For example, integrating Time-Shift Sampler to F-PNDM yields a FID=3.88, achieving 44.49\% improvements as compared to F-PNDM, on CIFAR-10 with 10 sampling steps, which is more performant than the vanilla DDIM with 100 sampling steps. We will release the code upon acceptance.

arxiv情報

著者 Mingxiao Li,Tingyu Qu,Ruicong Yao,Wei Sun,Marie-Francine Moens
発行日 2023-12-05 13:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク