Restart Sampling for Improving Generative Processes

要約

拡散モデルなどの微分方程式を解くことを伴う生成プロセスでは、速度と品質のバランスが必要になることがよくあります。
ODE ベースのサンプラーは高速ですが、パフォーマンスが頭打ちになります。一方、SDE ベースのサンプラーは、サンプリング時間の増加を犠牲にして、より高いサンプル品質を実現します。
この違いはサンプリング誤差によるものであると考えられます。ODE サンプラーには小さな離散化誤差が含まれますが、SDE の確率論は累積誤差を軽減します。
これらの発見に基づいて、離散化誤差と縮小のバランスをより良くするために、Restart と呼ばれる新しいサンプリング アルゴリズムを提案します。
サンプリング方法は、追加の前方ステップで実質的なノイズを追加することと、後方 ODE に厳密に従うことを交互に行います。
経験的に、Restart サンプラーは速度と精度の両方で以前の SDE および ODE サンプラーを上回っています。
再起動は、以前の最高の SDE 結果を上回るパフォーマンスを示すだけでなく、CIFAR-10 / ImageNet でサンプリング速度を 10 倍 / 2 倍加速します ($64 \times 64$)。
さらに、同等のサンプリング時間内で ODE サンプラーよりも大幅に優れたサンプル品質を実現します。
さらに、Restart は、LAION $512 \times 512$ で事前トレーニングされた大規模なテキストから画像への安定拡散モデルにおける以前のサンプラーよりも、テキストと画像の位置合わせ/視覚品質と多様性のバランスをより良く取っています。
コードは https://github.com/Newbeeer/diffusion_restart_sampling で入手できます。

要約(オリジナル)

Generative processes that involve solving differential equations, such as diffusion models, frequently necessitate balancing speed and quality. ODE-based samplers are fast but plateau in performance while SDE-based samplers deliver higher sample quality at the cost of increased sampling time. We attribute this difference to sampling errors: ODE-samplers involve smaller discretization errors while stochasticity in SDE contracts accumulated errors. Based on these findings, we propose a novel sampling algorithm called Restart in order to better balance discretization errors and contraction. The sampling method alternates between adding substantial noise in additional forward steps and strictly following a backward ODE. Empirically, Restart sampler surpasses previous SDE and ODE samplers in both speed and accuracy. Restart not only outperforms the previous best SDE results, but also accelerates the sampling speed by 10-fold / 2-fold on CIFAR-10 / ImageNet $64 \times 64$. In addition, it attains significantly better sample quality than ODE samplers within comparable sampling times. Moreover, Restart better balances text-image alignment/visual quality versus diversity than previous samplers in the large-scale text-to-image Stable Diffusion model pre-trained on LAION $512 \times 512$. Code is available at https://github.com/Newbeeer/diffusion_restart_sampling

arxiv情報

著者 Yilun Xu,Mingyang Deng,Xiang Cheng,Yonglong Tian,Ziming Liu,Tommi Jaakkola
発行日 2023-06-26 17:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.CO, stat.ML パーマリンク