要約
特定のエンティティを含むプロンプトから画像を生成するには、モデルができるだけ多くのエンティティ固有の知識を保持する必要があります。
ただし、そのような知識を完全に記憶することは、膨大な数のエンティティとその継続的な出現により非現実的です。
これに対処するために、プロンプトに含まれるエンティティに関する知識を増強し、大規模な言語モデル(LLMS)を使用して拡張された説明を要約して、より長い入力からのパフォーマンスの低下を緩和するために、エンティティプロンプトの精密化(TextTiger)を備えたテキストベースのインテリジェントジェネレーションを提案します。
この方法を評価するために、キャプション、画像、エンティティリストを含むデータセットであるWit-Cub(キャプションと複雑な背景概要を備えたWIT)を紹介します。
4つの画像生成モデルと5つのLLMの実験により、Texttigerはキャプションのみのプロンプトと比較して標準メトリック(IS、FID、およびClipscore)の画像生成パフォーマンスを改善することが示されています。
さらに、複数のアノテーターの評価により、要約された説明がより有益であり、簡潔でありながら豊富な説明を生成するLLMの能力を検証することが確認されています。
これらの調査結果は、拡張および要約されたエンティティ関連の説明を伴う精製プロンプトが画像生成機能を高めることを示しています。
コードとデータセットは、受け入れられると利用可能になります。
要約(オリジナル)
Generating images from prompts containing specific entities requires models to retain as much entity-specific knowledge as possible. However, fully memorizing such knowledge is impractical due to the vast number of entities and their continuous emergence. To address this, we propose Text-based Intelligent Generation with Entity prompt Refinement (TextTIGER), which augments knowledge on entities included in the prompts and then summarizes the augmented descriptions using Large Language Models (LLMs) to mitigate performance degradation from longer inputs. To evaluate our method, we introduce WiT-Cub (WiT with Captions and Uncomplicated Background-explanations), a dataset comprising captions, images, and an entity list. Experiments on four image generation models and five LLMs show that TextTIGER improves image generation performance in standard metrics (IS, FID, and CLIPScore) compared to caption-only prompts. Additionally, multiple annotators’ evaluation confirms that the summarized descriptions are more informative, validating LLMs’ ability to generate concise yet rich descriptions. These findings demonstrate that refining prompts with augmented and summarized entity-related descriptions enhances image generation capabilities. The code and dataset will be available upon acceptance.
arxiv情報
著者 | Shintaro Ozaki,Kazuki Hayashi,Yusuke Sakai,Jingun Kwon,Hidetaka Kamigaito,Katsuhiko Hayashi,Manabu Okumura,Taro Watanabe |
発行日 | 2025-04-25 11:27:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google