LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

要約

テキストと画像の合成に関する既存の自動評価では、オブジェクトレベルの構成性を考慮せず、画像とテキストの一致スコアのみを提供できるため、人間の判断との相関性が低くなります。
この研究では、多重粒度の構成性を持つ評価スコアを提供する新しいフレームワークである LLMScore を提案します。
LLMScore は、大規模言語モデル (LLM) を活用して、テキストから画像へのモデルを評価します。
最初に、画像を画像レベルおよびオブジェクトレベルの視覚的記述に変換します。
次に、評価命令が LLM に入力されて、合成画像とテキストの位置合わせが測定され、最終的に根拠を伴うスコアが生成されます。
私たちの実質的な分析により、LLMScore と幅広いデータセット (属性結合コントラスト、概念結合、MSCOCO、DrawBench、PaintSkills) に対する人間の判断との最も高い相関関係が明らかになりました。
特に、当社の LLMScore は、一般的に使用されるテキストと画像のマッチング指標である CLIP および BLIP よりもそれぞれ 58.8% および 31.2% 高い人間の評価との Kendall のタウ相関を達成しています。

要約(オリジナル)

Existing automatic evaluation on text-to-image synthesis can only provide an image-text matching score, without considering the object-level compositionality, which results in poor correlation with human judgments. In this work, we propose LLMScore, a new framework that offers evaluation scores with multi-granularity compositionality. LLMScore leverages the large language models (LLMs) to evaluate text-to-image models. Initially, it transforms the image into image-level and object-level visual descriptions. Then an evaluation instruction is fed into the LLMs to measure the alignment between the synthesized image and the text, ultimately generating a score accompanied by a rationale. Our substantial analysis reveals the highest correlation of LLMScore with human judgments on a wide range of datasets (Attribute Binding Contrast, Concept Conjunction, MSCOCO, DrawBench, PaintSkills). Notably, our LLMScore achieves Kendall’s tau correlation with human evaluations that is 58.8% and 31.2% higher than the commonly-used text-image matching metrics CLIP and BLIP, respectively.

arxiv情報

著者 Yujie Lu,Xianjun Yang,Xiujun Li,Xin Eric Wang,William Yang Wang
発行日 2023-05-18 16:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク