Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)

要約

Text-to-Image (T2I) モデルの品質が向上するにつれて、そのプロンプトの忠実性、つまり条件付けされたプロンプトに対する生成された画像の意味論的な一貫性をベンチマークすることに関心が集まっています。
クロスモーダル埋め込みとビジョン言語モデル (VLM) の進歩を活用して、さまざまな T2I 忠実度メトリクスが提案されています。
ただし、これらの指標は厳密に比較およびベンチマークされるわけではなく、識別しやすい一連の画像に対する人間のリッカート スコアとの相関によって、いくつかの弱いベースラインに対して提示されます。
T2IScoreScore (TS2) を導入します。これは、プロンプトと、徐々にエラーが増加する画像のセットを含む、厳選されたセマンティック エラー グラフのセットです。
これらにより、確立された統計テストから導出されたメタメトリック スコアを使用して、特定のプロンプト忠実度メトリックが客観的なエラー数に関して画像を正しく順序付けできるかどうか、および異なるエラー ノードを大幅に区別できるかどうかを厳密に判断できます。
驚いたことに、私たちがテストした最先端の VLM ベースのメトリクス (TIFA、DSG、LLMScore、VIEScore など) は、特に自然なハード サブセットにおいて、CLIPScore のような単純な機能ベースのメトリクスを大幅に上回ることができないことがわかりました。
T2I モデル エラーが発生しています。
TS2 は、客観的な基準に基づいて、予想される順序と分離に対する適合性をより厳密に比較することにより、より優れた T2I プロンプト忠実度メトリクスの開発を可能にします。

要約(オリジナル)

With advances in the quality of text-to-image (T2I) models has come interest in benchmarking their prompt faithfulness-the semantic coherence of generated images to the prompts they were conditioned on. A variety of T2I faithfulness metrics have been proposed, leveraging advances in cross-modal embeddings and vision-language models (VLMs). However, these metrics are not rigorously compared and benchmarked, instead presented against few weak baselines by correlation to human Likert scores over a set of easy-to-discriminate images. We introduce T2IScoreScore (TS2), a curated set of semantic error graphs containing a prompt and a set increasingly erroneous images. These allow us to rigorously judge whether a given prompt faithfulness metric can correctly order images with respect to their objective error count and significantly discriminate between different error nodes, using meta-metric scores derived from established statistical tests. Surprisingly, we find that the state-of-the-art VLM-based metrics (e.g., TIFA, DSG, LLMScore, VIEScore) we tested fail to significantly outperform simple feature-based metrics like CLIPScore, particularly on a hard subset of naturally-occurring T2I model errors. TS2 will enable the development of better T2I prompt faithfulness metrics through more rigorous comparison of their conformity to expected orderings and separations under objective criteria.

arxiv情報

著者 Michael Saxon,Fatima Jahara,Mahsa Khoshnoodi,Yujie Lu,Aditya Sharma,William Yang Wang
発行日 2024-04-05 17:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク