Text-to-image Diffusion Model in Generative AI: A Survey

要約

この調査では、テキストから画像への拡散モデルを、拡散モデルが幅広い生成タスクで一般的になっているという文脈でレビューします。
自己完結型の作業として、この調査は、基本的な拡散モデルが画像合成でどのように機能するかの簡単な紹介から始まり、その後、条件またはガイダンスが学習をどのように改善するかが続きます.
それに基づいて、テキスト条件付き画像合成、つまりテキストから画像への最先端の方法のレビューを提示します。
テキストから画像への生成を超えたアプリケーションをさらに要約します。テキストガイドのクリエイティブ生成とテキストガイドの画像編集です。
これまでの進展を超えて、既存の課題と有望な将来の方向性について話し合います。

要約(オリジナル)

This survey reviews text-to-image diffusion models in the context that diffusion models have emerged to be popular for a wide range of generative tasks. As a self-contained work, this survey starts with a brief introduction of how a basic diffusion model works for image synthesis, followed by how condition or guidance improves learning. Based on that, we present a review of state-of-the-art methods on text-conditioned image synthesis, i.e., text-to-image. We further summarize applications beyond text-to-image generation: text-guided creative generation and text-guided image editing. Beyond the progress made so far, we discuss existing challenges and promising future directions.

arxiv情報

著者 Chenshuang Zhang,Chaoning Zhang,Mengchun Zhang,In So Kweon
発行日 2023-03-14 13:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク