要約
テキストから画像への生成における最近の進歩にも関わらず、トレーニング データの多様性と複雑さには限界があるため、複雑で想像力豊かなプロンプトの処理には依然として限界があります。
この研究では、芸術的創造性や専門知識を必要とするプロンプトから拡散モデルがどのように画像を生成できるかを調査します。
現実的シナリオと幻想的なシナリオを融合した新しい評価フレームワークである、Realistic-Fantasy Benchmark (RFBench) を紹介します。
これらの課題に対処するために、拡散モデルと LLM を統合するトレーニング不要のアプローチである Realistic-Fantasy Network (RFNet) を提案します。
広範な人間による評価と GPT ベースの組成評価により、最先端の方法に対する当社のアプローチの優位性が実証されています。
コードとデータセットは https://leo81005.github.io/Reality-and-Fantasy/ で入手できます。
要約(オリジナル)
In spite of recent advancements in text-to-image generation, limitations persist in handling complex and imaginative prompts due to the restricted diversity and complexity of training data. This work explores how diffusion models can generate images from prompts requiring artistic creativity or specialized knowledge. We introduce the Realistic-Fantasy Benchmark (RFBench), a novel evaluation framework blending realistic and fantastical scenarios. To address these challenges, we propose the Realistic-Fantasy Network (RFNet), a training-free approach integrating diffusion models with LLMs. Extensive human evaluations and GPT-based compositional assessments demonstrate our approach’s superiority over state-of-the-art methods. Our code and dataset is available at https://leo81005.github.io/Reality-and-Fantasy/.
arxiv情報
著者 | Yi Yao,Chan-Feng Hsu,Jhe-Hao Lin,Hongxia Xie,Terence Lin,Yi-Ning Huang,Hong-Han Shuai,Wen-Huang Cheng |
発行日 | 2024-07-17 14:04:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google