KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities

要約

テキストから画像への生成における最近の進歩により、合成画像の品質が大幅に向上しました。
このような進歩にもかかわらず、評価は主に美的魅力やテキスト プロンプトとの整合性に焦点が当てられています。
したがって、これらのモデルがさまざまな現実的な視覚エンティティを正確に表現できるかどうかについての理解は限られており、これには現実世界の知識が必要です。
このギャップに対処するために、実世界のエンティティ (つまり、KITTEN) での知識集中型の画像生成の評価に焦点を当てたベンチマークを提案します。
KITTEN を使用して、ランドマークの建物、航空機、植物、動物など、現実世界のさまざまな視覚的エンティティを生成する能力に焦点を当て、テキストから画像への生成モデルにおけるエンティティの忠実性に関する体系的な研究を実施します。
私たちは、生成された画像内のエンティティの忠実性に重点を置き、自動メトリクスと慎重に設計された人間による評価の両方を使用して、最新のテキストから画像へのモデルと検索拡張カスタマイズ モデルを評価します。
私たちの調査結果では、最も高度なテキストから画像へのモデルであっても、正確な視覚的詳細を備えたエンティティを生成できないことが多いことが明らかになりました。
検索拡張モデルは、テスト中に参照画像を組み込むことでエンティティの忠実度を高めることができますが、多くの場合、これらの参照に過度に依存し、クリエイティブ テキスト プロンプトで要求されるエンティティの新しい構成を生成するのに苦労します。

要約(オリジナル)

Recent advancements in text-to-image generation have significantly enhanced the quality of synthesized images. Despite this progress, evaluations predominantly focus on aesthetic appeal or alignment with text prompts. Consequently, there is limited understanding of whether these models can accurately represent a wide variety of realistic visual entities – a task requiring real-world knowledge. To address this gap, we propose a benchmark focused on evaluating Knowledge-InTensive image generaTion on real-world ENtities (i.e., KITTEN). Using KITTEN, we conduct a systematic study on the fidelity of entities in text-to-image generation models, focusing on their ability to generate a wide range of real-world visual entities, such as landmark buildings, aircraft, plants, and animals. We evaluate the latest text-to-image models and retrieval-augmented customization models using both automatic metrics and carefully-designed human evaluations, with an emphasis on the fidelity of entities in the generated images. Our findings reveal that even the most advanced text-to-image models often fail to generate entities with accurate visual details. Although retrieval-augmented models can enhance the fidelity of entity by incorporating reference images during testing, they often over-rely on these references and struggle to produce novel configurations of the entity as requested in creative text prompts.

arxiv情報

著者 Hsin-Ping Huang,Xinyi Wang,Yonatan Bitton,Hagai Taitelbaum,Gaurav Singh Tomar,Ming-Wei Chang,Xuhui Jia,Kelvin C. K. Chan,Hexiang Hu,Yu-Chuan Su,Ming-Hsuan Yang
発行日 2024-10-15 17:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク