要約
拡散モデル (DM) は、敵対的なトレーニングを必要とせずに、コンテンツ生成における最先端のパフォーマンスを実証しています。
これらのモデルは、2 段階のプロセスを使用してトレーニングされます。
まず、前方拡散プロセスにより、データ (通常は画像) にノイズが徐々に追加されます。
次に、逆拡散プロセスによってノイズが徐々に除去され、モデル化されているターゲット分布のサンプルに変換されます。
DM は非平衡熱力学に着想を得ており、固有の高い計算複雑性を持っています。
高次元空間での関数評価と勾配計算が頻繁に行われるため、これらのモデルでは、トレーニングと推論の両方の段階でかなりの計算オーバーヘッドが発生します。
これは、拡散ベースのモデリングの民主化を妨げるだけでなく、実際のアプリケーションでの拡散モデルの適応を妨げる可能性があります。
言うまでもなく、計算モデルの効率は、過剰なエネルギー消費と環境への恐怖により、急速に重大な懸念事項になりつつあります。
これらの要因は、計算効率の高い DM の考案に焦点を当てた文献に複数の貢献をもたらしました。
このレビューでは、ビジョンの拡散モデルの最新の進歩を紹介し、特に DM の計算効率に影響を与える重要な設計面に焦点を当てています。
特に、より効率的な DM につながった最近提案された設計の選択を強調します。
広い視野から拡散モデルを議論する他の最近のレビューとは異なり、この調査は、より広範な研究コミュニティにとって実用的なモデルをもたらす文献の設計戦略を強調することにより、この研究の方向性を前進させることを目的としています。
また、計算効率の観点から、ビジョンにおける拡散モデルの将来の展望も提供します。
要約(オリジナル)
Diffusion Models (DMs) have demonstrated state-of-the-art performance in content generation without requiring adversarial training. These models are trained using a two-step process. First, a forward – diffusion – process gradually adds noise to a datum (usually an image). Then, a backward – reverse diffusion – process gradually removes the noise to turn it into a sample of the target distribution being modelled. DMs are inspired by non-equilibrium thermodynamics and have inherent high computational complexity. Due to the frequent function evaluations and gradient calculations in high-dimensional spaces, these models incur considerable computational overhead during both training and inference stages. This can not only preclude the democratization of diffusion-based modelling, but also hinder the adaption of diffusion models in real-life applications. Not to mention, the efficiency of computational models is fast becoming a significant concern due to excessive energy consumption and environmental scares. These factors have led to multiple contributions in the literature that focus on devising computationally efficient DMs. In this review, we present the most recent advances in diffusion models for vision, specifically focusing on the important design aspects that affect the computational efficiency of DMs. In particular, we emphasize the recently proposed design choices that have led to more efficient DMs. Unlike the other recent reviews, which discuss diffusion models from a broad perspective, this survey is aimed at pushing this research direction forward by highlighting the design strategies in the literature that are resulting in practicable models for the broader research community. We also provide a future outlook of diffusion models in vision from their computational efficiency viewpoint.
arxiv情報
著者 | Anwaar Ulhaq,Naveed Akhtar,Ganna Pogrebna |
発行日 | 2022-10-20 12:29:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google