要約
評価指標(メタ評価)の評価は、テキストからイメージ(T2I)の生成タスクにおける既存のメトリックの適合性を決定するために重要です。
人間ベースのメタ評価は費用がかかり、時間帯であり、自動化された代替品は希少です。
このギャップに対処し、CROCを提案します。自動化可能な堅牢性チェックのスケーラブルなフレームワークは、画像特性の包括的な分類法にわたって対照的なテストケースを合成することにより、メトリックの堅牢性を体系的にプローブおよび定量化するためのスケーラブルなフレームワークです。
CROCを使用すると、100万を超える対照的なプロンプトイメージペアの擬似標識データセット(CROC $^{syn} $)を生成して、評価メトリックの細粒の比較を可能にします。
また、データセットを使用して、オープンソースメソッド間で最先端のパフォーマンスを実現する新しいメトリックであるCrocscoreをトレーニングし、フレームワークの追加の重要なアプリケーションを実証します。
このデータセットを補完するために、特に挑戦的なカテゴリをターゲットにして、人間の監視ベンチマーク(CROC $^{hum} $)を紹介します。
我々の結果は、既存のメトリックの堅牢性の問題を強調しています。たとえば、多くは否定を含むプロンプトで失敗し、テストされたすべてのオープンソースメトリックは、身体部分の正しい識別を含む少なくとも25%のケースで失敗します。
要約(オリジナル)
The assessment of evaluation metrics (meta-evaluation) is crucial for determining the suitability of existing metrics in text-to-image (T2I) generation tasks. Human-based meta-evaluation is costly and time-intensive, and automated alternatives are scarce. We address this gap and propose CROC: a scalable framework for automated Contrastive Robustness Checks that systematically probes and quantifies metric robustness by synthesizing contrastive test cases across a comprehensive taxonomy of image properties. With CROC, we generate a pseudo-labeled dataset (CROC$^{syn}$) of over one million contrastive prompt-image pairs to enable a fine-grained comparison of evaluation metrics. We also use the dataset to train CROCScore, a new metric that achieves state-of-the-art performance among open-source methods, demonstrating an additional key application of our framework. To complement this dataset, we introduce a human-supervised benchmark (CROC$^{hum}$) targeting especially challenging categories. Our results highlight robustness issues in existing metrics: for example, many fail on prompts involving negation, and all tested open-source metrics fail on at least 25% of cases involving correct identification of body parts.
arxiv情報
著者 | Christoph Leiter,Yuki M. Asano,Margret Keuper,Steffen Eger |
発行日 | 2025-05-16 14:39:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google