Generative AI in Vision: A Survey on Models, Metrics and Applications

要約

生成 AI モデルは、現実的で多様なデータ サンプルの作成を可能にすることで、さまざまな分野に革命をもたらしました。
これらのモデルの中で、拡散モデルは、高品質の画像、テキスト、オーディオを生成するための強力なアプローチとして浮上しています。
この調査ペーパーでは、生成 AI の普及とレガシー モデルの包括的な概要を提供し、その基礎となる技術、さまざまなドメインにわたるアプリケーション、およびそれらの課題に焦点を当てています。
ノイズ除去拡散確率モデル (DDPM) やスコアベースの生成モデリングなどの概念を含む、拡散モデルの理論的基礎を詳しく掘り下げます。
さらに、テキストから画像への変換、画像の修復、画像の超解像度などにおけるこれらのモデルの多様なアプリケーションを調査し、創造的なタスクやデータの拡張における可能性を示します。
この調査は、既存の研究を総合し、この分野の重要な進歩を浮き彫りにすることで、研究者や実践者に生成 AI の普及とレガシー モデルについての包括的な理解を提供し、人工知能のこのエキサイティングな分野における将来のイノベーションを刺激することを目的としています。

要約(オリジナル)

Generative AI models have revolutionized various fields by enabling the creation of realistic and diverse data samples. Among these models, diffusion models have emerged as a powerful approach for generating high-quality images, text, and audio. This survey paper provides a comprehensive overview of generative AI diffusion and legacy models, focusing on their underlying techniques, applications across different domains, and their challenges. We delve into the theoretical foundations of diffusion models, including concepts such as denoising diffusion probabilistic models (DDPM) and score-based generative modeling. Furthermore, we explore the diverse applications of these models in text-to-image, image inpainting, and image super-resolution, along with others, showcasing their potential in creative tasks and data augmentation. By synthesizing existing research and highlighting critical advancements in this field, this survey aims to provide researchers and practitioners with a comprehensive understanding of generative AI diffusion and legacy models and inspire future innovations in this exciting area of artificial intelligence.

arxiv情報

著者 Gaurav Raut,Apoorv Singh
発行日 2024-02-26 07:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク