T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation

要約

最近のテキストからイメージまでの生成モデルは印象的なパフォーマンスを達成していますが、属性のバインディングや異なるエンティティ間の空間的関係を含むプロンプトの構成的複雑さのキャプチャを依然として捉えています。
この不整合は、Clipscoreなどの一般的な評価メトリックによって明らかにされていません。
最近の作品は、より堅牢な組成評価のために生成された画像に関する質問にプロンプ​​トを分解することにより、視覚的な質問応答(VQA)を利用する評価指標を提案しています。
これらの方法は人間の評価とより適切に整合していますが、画像内の構成性を完全にカバーすることはできません。
これに対処するために、画像をコンポーネントに分解する新しいメトリックを提案し、テキストを評価のために生成された画像に関する細粒の質問に提案します。
私たちの方法は、以前の最先端の指標を上回り、テキストからイメージへの生成モデルの評価におけるその有効性を示しています。
コードはhttps://github.com/hadi-hosseini/ t2i-fineevalで入手できます。

要約(オリジナル)

Although recent text-to-image generative models have achieved impressive performance, they still often struggle with capturing the compositional complexities of prompts including attribute binding, and spatial relationships between different entities. This misalignment is not revealed by common evaluation metrics such as CLIPScore. Recent works have proposed evaluation metrics that utilize Visual Question Answering (VQA) by decomposing prompts into questions about the generated image for more robust compositional evaluation. Although these methods align better with human evaluations, they still fail to fully cover the compositionality within the image. To address this, we propose a novel metric that breaks down images into components, and texts into fine-grained questions about the generated image for evaluation. Our method outperforms previous state-of-the-art metrics, demonstrating its effectiveness in evaluating text-to-image generative models. Code is available at https://github.com/hadi-hosseini/ T2I-FineEval.

arxiv情報

著者 Seyed Mohammad Hadi Hosseini,Amir Mohammad Izadi,Ali Abdollahi,Armin Saghafian,Mahdieh Soleymani Baghshah
発行日 2025-03-14 15:06:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク