要約
テキストから画像への生成モデルの急速な進歩と、ビジュアル コンテンツ作成への展開により、そのパフォーマンスを徹底的に評価し、潜在的なバイアスを特定することの重要性が高まっています。
現実的で多様性があり、視覚的に魅力的で、指定されたプロンプトと一貫性のある画像を生成するモデルを追求するため、研究者や実務者は、スケーラブルでコスト効率の高いパフォーマンス プロファイリングを容易にする自動メトリクスに頼ることがよくあります。
しかし、一般的に使用される指標では、人間の好みの多様性を完全には考慮できないことがよくあります。
特に評価基準の解釈が地域や文化によって異なるため、人間による詳細な評価であっても、主観性による課題に直面することがよくあります。
この研究では、アフリカ、ヨーロッパ、東南アジアのアノテーターが地理的表現、視覚的魅力、実際の画像と最新の画像から生成された画像の一貫性についての認識がどの程度異なるかを調査する大規模な異文化調査を実施します。
アートパブリックAPI。
私たちは 65,000 を超える画像の注釈と 20 のアンケート回答を収集しています。
私たちは人間によるアノテーションと一般的な自動化されたメトリクスを対比し、人間の好みは地理的な場所によって著しく異なり、現在のメトリクスではこの多様性を完全には考慮していないことがわかりました。
たとえば、地域の誇張されたステレオタイプ的な描写が地理的に代表的であるとみなされるかどうかについて、さまざまな場所にいるアノテーターの間で意見が異なることがよくあります。
さらに、自動評価の有用性は、オブジェクトの類似性に対する人間の認識と特徴抽出器の調整や、評価を根拠付けるために使用される参照データセットにキャプチャされた「魅力」の定義など、その設定に関する仮定に依存します。
自動評価と人間による評価を改善するための手順を推奨します。
要約(オリジナル)
Rapid progress in text-to-image generative models coupled with their deployment for visual content creation has magnified the importance of thoroughly evaluating their performance and identifying potential biases. In pursuit of models that generate images that are realistic, diverse, visually appealing, and consistent with the given prompt, researchers and practitioners often turn to automated metrics to facilitate scalable and cost-effective performance profiling. However, commonly-used metrics often fail to account for the full diversity of human preference; often even in-depth human evaluations face challenges with subjectivity, especially as interpretations of evaluation criteria vary across regions and cultures. In this work, we conduct a large, cross-cultural study to study how much annotators in Africa, Europe, and Southeast Asia vary in their perception of geographic representation, visual appeal, and consistency in real and generated images from state-of-the art public APIs. We collect over 65,000 image annotations and 20 survey responses. We contrast human annotations with common automated metrics, finding that human preferences vary notably across geographic location and that current metrics do not fully account for this diversity. For example, annotators in different locations often disagree on whether exaggerated, stereotypical depictions of a region are considered geographically representative. In addition, the utility of automatic evaluations is dependent on assumptions about their set-up, such as the alignment of feature extractors with human perception of object similarity or the definition of ‘appeal’ captured in reference datasets used to ground evaluations. We recommend steps for improved automatic and human evaluations.
arxiv情報
著者 | Melissa Hall,Samuel J. Bell,Candace Ross,Adina Williams,Michal Drozdzal,Adriana Romero Soriano |
発行日 | 2024-05-07 16:23:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google