要約
拡散モデルは、その導入以来、多くの領域で生成モデリングの主流となった。拡散モデルは、時系列に変化する対数確率密度関数の勾配を学習すると解釈することができる。この解釈は、拡散モデルを事後的に制御する方法として、分類器に基づくガイダンスや分類器によらないガイダンスを動機付けるものである。本研究では、拡散モデルのスコアベースの解釈を用いてこれらのアイデアを構築し、構成的生成とガイダンスを含むタスクのために拡散モデルを条件付け、修正、再利用する代替方法を探求する。特に、ある種の構成が現在の技術で失敗する理由を調査し、多くの解決策を提示する。我々は、この失敗の原因はモデルではなくサンプラーにあると結論づけ、MCMCにヒントを得た新しいサンプラーを提案し、合成生成を成功させる。さらに、拡散モデルのエネルギーベースのパラメータ化を提案し、新しい合成演算子とより洗練されたメトロポリス補正されたサンプラーを使用することを可能にした。興味深いことに、これらのサンプラーは、分類器誘導型ImageNetモデリングや、テキストから画像への合成生成などの幅広い問題において、合成生成の顕著な改善につながることがわかった。
要約(オリジナル)
Since their introduction, diffusion models have quickly become the prevailing approach to generative modeling in many domains. They can be interpreted as learning the gradients of a time-varying sequence of log-probability density functions. This interpretation has motivated classifier-based and classifier-free guidance as methods for post-hoc control of diffusion models. In this work, we build upon these ideas using the score-based interpretation of diffusion models, and explore alternative ways to condition, modify, and reuse diffusion models for tasks involving compositional generation and guidance. In particular, we investigate why certain types of composition fail using current techniques and present a number of solutions. We conclude that the sampler (not the model) is responsible for this failure and propose new samplers, inspired by MCMC, which enable successful compositional generation. Further, we propose an energy-based parameterization of diffusion models which enables the use of new compositional operators and more sophisticated, Metropolis-corrected samplers. Intriguingly we find these samplers lead to notable improvements in compositional generation across a wide set of problems such as classifier-guided ImageNet modeling and compositional text-to-image generation.
arxiv情報
| 著者 | Yilun Du,Conor Durkan,Robin Strudel,Joshua B. Tenenbaum,Sander Dieleman,Rob Fergus,Jascha Sohl-Dickstein,Arnaud Doucet,Will Grathwohl |
| 発行日 | 2023-06-05 15:40:57+00:00 |
| arxivサイト | arxiv_id(pdf) |