Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

要約

Text-to-Image (T2I) 生成モデルは広く普及していますが、必ずしも指定されたプロンプトに沿った画像を生成するとは限りません。
これまでの研究では、人間の判断を収集するための指標、ベンチマーク、テンプレートを提案することで T2I 調整を評価していましたが、これらのコンポーネントの品質は体系的に測定されていませんでした。
人間が評価したプロンプト セットは一般に小さく、評価の信頼性 (つまり、モデルの比較に使用されるプロンプト セット) は評価されません。
私たちは、自動評価メトリクスと人間によるテンプレートを評価する広範な調査を実行することで、このギャップに対処します。
私たちは 3 つの主な貢献を提供します。 (1) さまざまな人間のテンプレート間でモデルを区別できる、包括的なスキルベースのベンチマークを導入します。
このスキルベースのベンチマークはプロンプトをサブスキルに分類し、実践者がどのスキルが難しいかだけでなく、どのレベルの複雑さでスキルが難しくなるかを正確に特定できるようにします。
(2) 4 つのテンプレートと 4 つの T2I モデルにわたって人間による評価を収集し、合計 100,000 を超える注釈を収集します。
これにより、プロンプト内に固有のあいまいさによって違いがどこに発生するのか、また、メトリクスとモデルの品質の違いによってどこに違いが発生するのかを理解することができます。
(3) 最後に、新しいデータセット、さまざまな人間のテンプレート、および TIFA160 の既存の指標よりも人間の評価との相関性が高い、新しい QA ベースの自動評価指標を導入します。

要約(オリジナル)

While text-to-image (T2I) generative models have become ubiquitous, they do not necessarily generate images that align with a given prompt. While previous work has evaluated T2I alignment by proposing metrics, benchmarks, and templates for collecting human judgements, the quality of these components is not systematically measured. Human-rated prompt sets are generally small and the reliability of the ratings — and thereby the prompt set used to compare models — is not evaluated. We address this gap by performing an extensive study evaluating auto-eval metrics and human templates. We provide three main contributions: (1) We introduce a comprehensive skills-based benchmark that can discriminate models across different human templates. This skills-based benchmark categorises prompts into sub-skills, allowing a practitioner to pinpoint not only which skills are challenging, but at what level of complexity a skill becomes challenging. (2) We gather human ratings across four templates and four T2I models for a total of >100K annotations. This allows us to understand where differences arise due to inherent ambiguity in the prompt and where they arise due to differences in metric and model quality. (3) Finally, we introduce a new QA-based auto-eval metric that is better correlated with human ratings than existing metrics for our new dataset, across different human templates, and on TIFA160.

arxiv情報

著者 Olivia Wiles,Chuhan Zhang,Isabela Albuquerque,Ivana Kajić,Su Wang,Emanuele Bugliarello,Yasumasa Onoe,Chris Knutsen,Cyrus Rashtchian,Jordi Pont-Tuset,Aida Nematzadeh
発行日 2024-04-25 17:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク