要約
生成 AI は、画像やビデオの生成などの分野に革命を起こすために目覚ましい進歩を遂げました。
これらの進歩は、革新的なアルゴリズム、アーキテクチャ、データによって推進されています。
しかし、生成モデルの急速な普及により、信頼できる評価指標が存在しないという重大なギャップが浮き彫りになりました。
FID、CLIP、FVD などの現在の自動評価では、生成された出力に関連する微妙な品質やユーザー満足度を把握できないことがよくあります。
この論文では、ユーザーがこれらのモデルの評価に積極的に参加できる、さまざまな画像およびビデオ生成モデルを評価するためのオープン プラットフォーム GenAI-Arena を提案します。
GenAI-Arena は、ユーザーの集合的なフィードバックと投票を活用することで、より民主的で正確なモデルのパフォーマンスの測定を提供することを目指しています。
テキストから画像への生成、テキストからビデオへの生成、画像編集の 3 つの分野をそれぞれカバーしています。
現在、合計 27 のオープンソース生成モデルをカバーしています。
GenAI-Arena は 4 か月間運営されており、コミュニティから 6000 を超える投票を集めています。
私たちのプラットフォームについて説明し、データを分析し、モデルをランク付けするための統計的手法について説明します。
モデルベースの評価指標の構築における研究をさらに促進するために、私たちは 3 つのタスクの好みデータのクリーンなバージョン、つまり GenAI-Bench をリリースします。
私たちは、Gemini や GPT-4o などの既存のマルチモーダル モデルに人間の投票を模倣するよう促します。
モデル投票と人間の投票との相関を計算して、人間の判断能力を理解します。
私たちの結果は、既存のマルチモーダル モデルは、生成されたビジュアル コンテンツの評価において依然として遅れがあり、最良のモデルである GPT-4o でさえ品質サブスコアで 0.22 のピアソン相関を達成するだけであり、他のモデルではランダムな推測のように動作することを示しています。
要約(オリジナル)
Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three arenas for text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 27 open-source generative models. GenAI-Arena has been operating for four months, amassing over 6000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, GPT-4o to mimic human voting. We compute the correlation between model voting with human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves a Pearson correlation of 0.22 in the quality subscore, and behaves like random guessing in others.
arxiv情報
著者 | Dongfu Jiang,Max Ku,Tianle Li,Yuansheng Ni,Shizhuo Sun,Rongqi Fan,Wenhu Chen |
発行日 | 2024-08-06 16:35:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google