Diffusion Models: A Comprehensive Survey of Methods and Applications

要約

拡散モデルは、深い生成モデルのクラスであり、緻密な理論的基盤を備えたさまざまなタスクで印象的な結果を示しています。
拡散モデルは、他の最先端のモデルよりも優れた品質とサンプル合成の多様性を達成していますが、依然としてコストのかかるサンプリング手順と最適ではない可能性の推定に悩まされています。
最近の研究では、拡散モデルのパフォーマンスを向上させることに大きな熱意が示されています。
この記事では、拡散モデルの既存のバリアントの最初の包括的なレビューを提示します。
具体的には、拡散モデルの最初の分類法を提供し、それらのバリアントを 3 つのタイプ、つまりサンプリング加速強化、尤度最大化強化、およびデータ一般化強化に分類します。
また、他の 5 つの生成モデル (変分オートエンコーダー、敵対的生成ネットワーク、正規化フロー、自己回帰モデル、エネルギーベース モデル) を詳細に紹介し、拡散モデルとこれらの生成モデルの関係を明らかにします。
次に、コンピューター ビジョン、自然言語処理、波形信号処理、マルチモーダル モデリング、分子グラフ生成、時系列モデリング、敵対的浄化など、拡散モデルのアプリケーションを徹底的に調査します。
さらに、この生成モデルの開発に関する新しい視点を提案します。

要約(オリジナル)

Diffusion models are a class of deep generative models that have shown impressive results on various tasks with dense theoretical founding. Although diffusion models have achieved impressive quality and diversity of sample synthesis than other state-of-the-art models, they still suffer from costly sampling procedure and sub-optimal likelihood estimation. Recent studies have shown great enthusiasm on improving the performance of diffusion model. In this article, we present a first comprehensive review of existing variants of the diffusion models. Specifically, we provide a first taxonomy of diffusion models and categorize them variants to three types, namely sampling-acceleration enhancement, likelihood-maximization enhancement and data-generalization enhancement. We also introduce in detail other five generative models (i.e., variational autoencoders, generative adversarial networks, normalizing flow, autoregressive models, and energy-based models), and clarify the connections between diffusion models and these generative models. Then we make a thorough investigation into the applications of diffusion models, including computer vision, natural language processing, waveform signal processing, multi-modal modeling, molecular graph generation, time series modeling, and adversarial purification. Furthermore, we propose new perspectives pertaining to the development of this generative model.

arxiv情報

著者 Ling Yang,Zhilong Zhang,Shenda Hong,Wentao Zhang,Bin Cui
発行日 2022-09-09 03:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク