Implementing and Experimenting with Diffusion Models for Text-to-Image Generation

要約

深層学習における最近の多くの進歩を利用して、テキストから画像への生成モデルは現在、一般の人々の注目を集めるというメリットがあります。
これらのモデルのうちの 2 つ、DALL-E 2 と Imagen は、画像の単純なテキスト記述から高度にフォトリアリスティックな画像を生成できることを実証しました。
テキストから画像へのモデルは、拡散モデルと呼ばれる画像生成の新しいアプローチに基づいており、人間の想像力が唯一の限界である、さまざまな種類の高解像度画像の生成を可能にします。
ただし、これらのモデルは、インターネットから収集された膨大なデータセットを処理するだけでなく、トレーニングに非常に大量の計算リソースを必要とします。
さらに、コードベースもモデルもリリースされていません。
その結果、AI コミュニティがこれらの最先端のモデルを試すことができなくなり、結果の再現が不可能ではないにしても複雑になります。
この論文では、まずこれらのモデルで使用されるさまざまなアプローチと手法を確認し、次にテキストから画像へのモデルの独自の実装を提案することによって貢献することを目指しています。
DALL-E 2 に高度に基づいており、誘発される高い計算コストに対処するためにいくつかのわずかな変更を導入しています。
したがって、特にリソースが少ない体制で、これらのモデルが何ができるかを理解するために実験する機会があります。
特に、アブレーション研究を含む、DALL-E 2 の作成者が行ったものよりも詳細な分析を追加して提供します。
さらに、拡散モデルは、生成プロセスを支援するために、いわゆるガイダンス手法を使用します。
画質を向上させるために、他のガイダンス方法と組み合わせて使用​​できる新しいガイダンス方法を紹介します。
最後に、私たちのモデルによって生成された画像は、最先端のテキストから画像へのモデルの多額のトレーニング コストを維持する必要なく、適度に高品質です。

要約(オリジナル)

Taking advantage of the many recent advances in deep learning, text-to-image generative models currently have the merit of attracting the general public attention. Two of these models, DALL-E 2 and Imagen, have demonstrated that highly photorealistic images could be generated from a simple textual description of an image. Based on a novel approach for image generation called diffusion models, text-to-image models enable the production of many different types of high resolution images, where human imagination is the only limit. However, these models require exceptionally large amounts of computational resources to train, as well as handling huge datasets collected from the internet. In addition, neither the codebase nor the models have been released. It consequently prevents the AI community from experimenting with these cutting-edge models, making the reproduction of their results complicated, if not impossible. In this thesis, we aim to contribute by firstly reviewing the different approaches and techniques used by these models, and then by proposing our own implementation of a text-to-image model. Highly based on DALL-E 2, we introduce several slight modifications to tackle the high computational cost induced. We thus have the opportunity to experiment in order to understand what these models are capable of, especially in a low resource regime. In particular, we provide additional and analyses deeper than the ones performed by the authors of DALL-E 2, including ablation studies. Besides, diffusion models use so-called guidance methods to help the generating process. We introduce a new guidance method which can be used in conjunction with other guidance methods to improve image quality. Finally, the images generated by our model are of reasonably good quality, without having to sustain the significant training costs of state-of-the-art text-to-image models.

arxiv情報

著者 Robin Zbinden
発行日 2022-09-22 12:03:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク