Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC

要約

拡散モデルはその導入以来、すぐに多くの分野で生成モデリングへの一般的なアプローチになりました。
これらは、対数確率密度関数の時変シーケンスの勾配を学習していると解釈できます。
この解釈は、拡散モデルの事後制御の方法として、分類器ベースおよび分類器を使用しないガイダンスを動機付けています。
この研究では、拡散モデルのスコアベースの解釈を使用してこれらのアイデアを構築し、構成の生成とガイダンスを含むタスクのために拡散モデルを調整、変更、再利用するための代替方法を探索します。
特に、特定の種類の構成が現在の技術を使用して失敗する理由を調査し、多くの解決策を提示します。
私たちは、この失敗の原因はサンプラー (モデルではない) であると結論付け、MCMC からインスピレーションを得て、構成生成を成功させる新しいサンプラーを提案します。
さらに、新しい合成演算子とより洗練されたメトロポリス補正サンプラーの使用を可能にする拡散モデルのエネルギーベースのパラメータ化を提案します。
興味深いことに、これらのサンプラーは、分類器に基づく ImageNet モデリングや合成テキストから画像への生成など、幅広い問題にわたって合成生成の顕著な改善につながることがわかりました。

要約(オリジナル)

Since their introduction, diffusion models have quickly become the prevailing approach to generative modeling in many domains. They can be interpreted as learning the gradients of a time-varying sequence of log-probability density functions. This interpretation has motivated classifier-based and classifier-free guidance as methods for post-hoc control of diffusion models. In this work, we build upon these ideas using the score-based interpretation of diffusion models, and explore alternative ways to condition, modify, and reuse diffusion models for tasks involving compositional generation and guidance. In particular, we investigate why certain types of composition fail using current techniques and present a number of solutions. We conclude that the sampler (not the model) is responsible for this failure and propose new samplers, inspired by MCMC, which enable successful compositional generation. Further, we propose an energy-based parameterization of diffusion models which enables the use of new compositional operators and more sophisticated, Metropolis-corrected samplers. Intriguingly we find these samplers lead to notable improvements in compositional generation across a wide set of problems such as classifier-guided ImageNet modeling and compositional text-to-image generation.

arxiv情報

著者 Yilun Du,Conor Durkan,Robin Strudel,Joshua B. Tenenbaum,Sander Dieleman,Rob Fergus,Jascha Sohl-Dickstein,Arnaud Doucet,Will Grathwohl
発行日 2023-06-08 17:39:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク