要約
テキストから画像への生成モデルの使用が増加するにつれて、その評価に使用される自動ベンチマーク手法の採用も増加しています。
ただし、メトリクスとデータセットは豊富にありますが、多くのデータセットとメトリクスにわたって評価を実行するためのフレームワークを提供する統合ベンチマーク ライブラリはほとんどありません。
さらに、ますます堅牢なベンチマーク手法が急速に導入されるため、評価ライブラリが新しいデータセットや指標に柔軟に対応できる必要があります。
最後に、モデルのパフォーマンスに関する実用的な結論を提供するための評価を総合する際にギャップが残っています。
統合され、柔軟で実用的な評価を可能にするために、生成画像モデルを評価するためのライブラリである EvalGIM (「エヴァルジム」と発音) を導入します。
EvalGIM には、テキストから画像への生成モデルの品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスの幅広いサポートが含まれています。
さらに、EvalGIM はユーザーのカスタマイズに対する柔軟性を最優先に設計されており、新しいデータセットとメトリクスをプラグアンドプレイで追加できる構造が含まれています。
実用的な評価の洞察を可能にするために、特定の評価の質問に対する要点を強調する「評価演習」を導入します。
評価演習には、テキストから画像への生成モデルの 2 つの最先端の評価方法、一貫性-多様性-現実主義パレート フロントとグループ間のパフォーマンス格差の分解測定の使いやすく再現可能な実装が含まれています。
EvalGIM には、テキストから画像への生成モデルに 2 つの新しい分析方法を導入する評価演習も含まれています。モデルのランキングの堅牢性分析と、さまざまなプロンプト スタイルにわたるバランスのとれた評価です。
私たちは EvalGIM を使用したテキストから画像へのモデルの探索を奨励しており、https://github.com/facebookresearch/EvalGIM/ で貢献を募っています。
要約(オリジナル)
As the use of text-to-image generative models increases, so does the adoption of automatic benchmarking methods used in their evaluation. However, while metrics and datasets abound, there are few unified benchmarking libraries that provide a framework for performing evaluations across many datasets and metrics. Furthermore, the rapid introduction of increasingly robust benchmarking methods requires that evaluation libraries remain flexible to new datasets and metrics. Finally, there remains a gap in synthesizing evaluations in order to deliver actionable takeaways about model performance. To enable unified, flexible, and actionable evaluations, we introduce EvalGIM (pronounced ”EvalGym”), a library for evaluating generative image models. EvalGIM contains broad support for datasets and metrics used to measure quality, diversity, and consistency of text-to-image generative models. In addition, EvalGIM is designed with flexibility for user customization as a top priority and contains a structure that allows plug-and-play additions of new datasets and metrics. To enable actionable evaluation insights, we introduce ”Evaluation Exercises” that highlight takeaways for specific evaluation questions. The Evaluation Exercises contain easy-to-use and reproducible implementations of two state-of-the-art evaluation methods of text-to-image generative models: consistency-diversity-realism Pareto Fronts and disaggregated measurements of performance disparities across groups. EvalGIM also contains Evaluation Exercises that introduce two new analysis methods for text-to-image generative models: robustness analyses of model rankings and balanced evaluations across different prompt styles. We encourage text-to-image model exploration with EvalGIM and invite contributions at https://github.com/facebookresearch/EvalGIM/.
arxiv情報
著者 | Melissa Hall,Oscar Mañas,Reyhane Askari-Hemmat,Mark Ibrahim,Candace Ross,Pietro Astolfi,Tariq Berrada Ifriqi,Marton Havasi,Yohann Benchetrit,Karen Ullrich,Carolina Braga,Abhishek Charnalia,Maeve Ryan,Mike Rabbat,Michal Drozdzal,Jakob Verbeek,Adriana Romero-Soriano |
発行日 | 2024-12-18 17:49:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google