Finding the Subjective Truth: Collecting 2 Million Votes for Comprehensive Gen-AI Model Evaluation

要約

テキストから画像へのモデルのパフォーマンスを効率的に評価することは、本質的に主観的な判断と人間の好みを必要とするため困難であり、異なるモデルを比較して最先端技術を定量化することが困難です。
Rapidata のテクノロジーを活用して、世界中の多様なアノテーター プールから人間によるフィードバックを得る効率的なアノテーション フレームワークを提供します。
私たちの研究では、スタイルの好み、一貫性、テキストと画像の位置合わせに関して 4 つの著名なモデル (DALL-E 3、Flux.1、MidJourney、Stable Diffusion) を評価し、4,512 枚の画像にわたって 200 万件を超えるアノテーションを収集しました。
私たちは、私たちのアプローチにより、膨大なアノテーターのプールに基づいて画像生成モデルを包括的にランク付けできることを実証し、多様なアノテーターの人口統計が世界の人口を反映し、偏見のリスクを大幅に軽減することを示します。

要約(オリジナル)

Efficiently evaluating the performance of text-to-image models is difficult as it inherently requires subjective judgment and human preference, making it hard to compare different models and quantify the state of the art. Leveraging Rapidata’s technology, we present an efficient annotation framework that sources human feedback from a diverse, global pool of annotators. Our study collected over 2 million annotations across 4,512 images, evaluating four prominent models (DALL-E 3, Flux.1, MidJourney, and Stable Diffusion) on style preference, coherence, and text-to-image alignment. We demonstrate that our approach makes it feasible to comprehensively rank image generation models based on a vast pool of annotators and show that the diverse annotator demographics reflect the world population, significantly decreasing the risk of biases.

arxiv情報

著者 Dimitrios Christodoulou,Mads Kuhlmann-Jørgensen
発行日 2024-09-18 12:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク