TCIG: Two-Stage Controlled Image Generation with Quality Enhancement through Diffusion

要約

近年、テキストから画像への生成モデルの開発が大きく進展している。しかし、これらのモデルは、生成過程における完全な制御性を達成することに関しては、依然として限界に直面している。多くの場合、特別な訓練や限定的なモデルの使用が必要であり、その場合でも一定の制約がある。このような課題に対処するため、画像生成における制御性と高品質を効率的に組み合わせた2段階法を提案する。この手法では、事前に訓練されたモデルの専門知識を活用して、生成される画像の正確な制御を実現すると同時に、拡散モデルの力を利用して最先端の品質を達成する。制御性と高品質を分離することで、本手法は卓越した結果を達成する。潜在拡散モデルと画像空間拡散モデルの両方に対応し、汎用性と柔軟性を保証する。さらに、本手法は、この分野における現在の最先端手法に匹敵する結果を一貫して生成する。全体として、この提案手法は、テキストから画像への生成における重要な進歩を示しており、生成された画像の品質を損なうことなく、制御性を向上させることができる。

要約(オリジナル)

In recent years, significant progress has been made in the development of text- to-image generation models. However, these models still face limitations when it comes to achieving full controllability during the generation process. Often, spe- cific training or the use of limited models is required, and even then, they have certain restrictions. To address these challenges, A two-stage method that effec- tively combines controllability and high quality in the generation of images is proposed. This approach leverages the expertise of pre-trained models to achieve precise control over the generated images, while also harnessing the power of diffusion models to achieve state-of-the-art quality. By separating controllability from high quality, This method achieves outstanding results. It is compatible with both latent and image space diffusion models, ensuring versatility and flexibil- ity. Moreover, This approach consistently produces comparable outcomes to the current state-of-the-art methods in the field. Overall, This proposed method rep- resents a significant advancement in text-to-image generation, enabling improved controllability without compromising on the quality of the generated images.

arxiv情報

著者 Salaheldin Mohamed
発行日 2024-03-02 13:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク