WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

要約

テキストツーイメージ(T2I)モデルは、高品質の芸術作品と視覚的なコンテンツを生成することができます。
ただし、既存の研究と評価の基準は、主にイメージのリアリズムと浅いテキストイメージの調整に焦点を当てており、テキストから画像生成への複雑なセマンティック理解と世界知識の統合の包括的な評価が欠けています。
この課題に対処するために、$ \ textbf {w} $ orld knowledge-$ \ textbf {i} $ nformed $ \ textbf {s} $ emantic $ \ textbf {e} $ $ valuation用に特別に設計された最初のベンチマークである$ \ textbf {wise} $を提案します。
ワイズは、文化的常識、空間的推論、自然科学の25のサブドメインにわたって1000の綿密に作成されたプロンプトを備えた挑戦的なモデルで、単純なワードピクセルマッピングを超えて移動します。
従来のクリップメトリックの制限を克服するために、知識イメージアライメントを評価するための新しい定量的メトリックである$ \ textBf {wiscore} $を導入します。
25のサブドメインにまたがる1,000の構造化プロンプトを使用して、20のモデル(10の専用T2Iモデルと10の統一マルチモードモデル)の包括的なテストを通じて、我々の調査結果は、画像生成中に世界知識を効果的に統合および適用する能力に大きな制限を明らかにし、次世代T2Iモデルにおける知識の組み込みと応用を強化するための重要な経路を強調します。
コードとデータはhttps://github.com/pku-yuangroup/wiseで入手できます。

要約(オリジナル)

Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose $\textbf{WISE}$, the first benchmark specifically designed for $\textbf{W}$orld Knowledge-$\textbf{I}$nformed $\textbf{S}$emantic $\textbf{E}$valuation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce $\textbf{WiScore}$, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.

arxiv情報

著者 Yuwei Niu,Munan Ning,Mengren Zheng,Bin Lin,Peng Jin,Jiaqi Liao,Kunpeng Ning,Bin Zhu,Li Yuan
発行日 2025-03-10 12:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク