要約
合成画像の品質を評価することは、テキストから画像への (T2I) 生成の開発において依然として大きな課題です。
この分野における既存の研究のほとんどは、主にテキストと画像の位置合わせ、画質、およびオブジェクトの合成機能の評価に焦点を当てており、特に関係する概念が知識集約型である場合、T2I モデルの事実性の評価に取り組んでいる研究は比較的少数です。
このギャップを軽減するために、この研究では T2I-FactualBench を紹介します。これは、知識集約型のコンセプト生成の事実性を評価するために特別に設計されたコンセプトとプロンプトの数の点で、これまでで最大のベンチマークです。
T2I-FactualBench は、個々の知識概念の基本的な暗記から複数の知識概念のより複雑な構成に至るまで、3 層の知識集約的なテキストから画像への生成フレームワークで構成されています。
さらに、3 層の知識集約的なテキストから画像への生成タスクの事実性を評価するために、マルチラウンドのビジュアル質問応答 (VQA) ベースの評価フレームワークを導入します。
T2I-FactualBench の実験では、現在の最先端 (SOTA) T2I モデルにはまだ改善の余地が大きく残っていることが示されています。
要約(オリジナル)
Evaluating the quality of synthesized images remains a significant challenge in the development of text-to-image (T2I) generation. Most existing studies in this area primarily focus on evaluating text-image alignment, image quality, and object composition capabilities, with comparatively fewer studies addressing the evaluation of the factuality of T2I models, particularly when the concepts involved are knowledge-intensive. To mitigate this gap, we present T2I-FactualBench in this work – the largest benchmark to date in terms of the number of concepts and prompts specifically designed to evaluate the factuality of knowledge-intensive concept generation. T2I-FactualBench consists of a three-tiered knowledge-intensive text-to-image generation framework, ranging from the basic memorization of individual knowledge concepts to the more complex composition of multiple knowledge concepts. We further introduce a multi-round visual question answering (VQA) based evaluation framework to assess the factuality of three-tiered knowledge-intensive text-to-image generation tasks. Experiments on T2I-FactualBench indicate that current state-of-the-art (SOTA) T2I models still leave significant room for improvement.
arxiv情報
著者 | Ziwei Huang,Wanggui He,Quanyu Long,Yandi Wang,Haoyuan Li,Zhelun Yu,Fangxun Shu,Long Chen,Hao Jiang,Leilei Gan |
発行日 | 2024-12-05 16:21:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google