Parallel Sampling of Diffusion Models

要約

拡散モデルは強力な生成モデルですが、サンプリングが遅いという問題があり、多くの場合、1 つのサンプルに対して 1000 回の連続したノイズ除去ステップが必要になります。
その結果、ノイズ除去ステップの数を減らすために多大な努力が払われてきましたが、これらの方法はサンプルの品質を損なうことになります。
このペーパーでは、ノイズ除去ステップの数を減らす (速度を犠牲にして品質を犠牲にする) 代わりに、直交アプローチを検討します。つまり、ノイズ除去ステップを並行して実行できますか (速度を犠牲にして計算を犠牲にする)。
ノイズ除去ステップの逐次的な性質にもかかわらず、驚くべきことに、将来のノイズ除去ステップの解を推測し、収束するまで反復的に調整することにより、ピカール反復によるサンプリングを並列化できることを示します。
この洞察をもとに、複数のステップを並行してノイズ除去することで、事前学習済み拡散モデルのサンプリングを高速化する新しい方法である ParaDiGMS を紹介します。
ParaDiGMS は、速度とコンピューティングのトレードオフを可能にする初の拡散サンプリング手法であり、DDIM や DPMSolver などの既存の高速サンプリング手法とも互換性があります。
ParaDiGMS を使用することで、さまざまなロボティクスおよび画像生成モデルにわたってサンプリング速度が 2 ~ 4 倍向上し、100 ステップの DiffusionPolicy で 0.2 秒、1000 ステップの StableDiffusion-v2 で 16 秒という最先端のサンプリング速度が得られます。
タスク報酬、FID スコア、または CLIP スコアの測定可能な低下。

要約(オリジナル)

Diffusion models are powerful generative models but suffer from slow sampling, often taking 1000 sequential denoising steps for one sample. As a result, considerable efforts have been directed toward reducing the number of denoising steps, but these methods hurt sample quality. Instead of reducing the number of denoising steps (trading quality for speed), in this paper we explore an orthogonal approach: can we run the denoising steps in parallel (trading compute for speed)? In spite of the sequential nature of the denoising steps, we show that surprisingly it is possible to parallelize sampling via Picard iterations, by guessing the solution of future denoising steps and iteratively refining until convergence. With this insight, we present ParaDiGMS, a novel method to accelerate the sampling of pretrained diffusion models by denoising multiple steps in parallel. ParaDiGMS is the first diffusion sampling method that enables trading compute for speed and is even compatible with existing fast sampling techniques such as DDIM and DPMSolver. Using ParaDiGMS, we improve sampling speed by 2-4x across a range of robotics and image generation models, giving state-of-the-art sampling speeds of 0.2s on 100-step DiffusionPolicy and 16s on 1000-step StableDiffusion-v2 with no measurable degradation of task reward, FID score, or CLIP score.

arxiv情報

著者 Andy Shih,Suneel Belkhale,Stefano Ermon,Dorsa Sadigh,Nima Anari
発行日 2023-05-25 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク