MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

要約

AI モデルが現実世界の信号から効果的に学習し、それに関与するには、多様なモダリティを認識して生成することが重要であり、その開発には信頼性の高い評価が必要です。
現在の評価では、次の 2 つの主要な問題を特定しています。(1) プロトコルや成熟度が異なるさまざまなコミュニティによって形成された、一貫性のない基準。
(2) 重大なクエリ、採点、一般化バイアス。
これらに対処するために、多様な入力および出力モダリティにわたる評価を最適化および標準化するように設計された初の Any-to-Any 現実世界ベンチマークである MixEval-X を導入します。
私たちは、現実世界のタスク分布を再構築するためのマルチモーダルベンチマーク混合および適応修正パイプラインを提案し、評価が現実世界のユースケースに効果的に一般化されることを保証します。
広範なメタ評価により、私たちのアプローチがベンチマーク サンプルを現実世界のタスク分布と効果的に一致させることがわかります。
一方、MixEval-X のモデル ランキングは、クラウドソースによる現実世界の評価 (最大 0.98) と強い相関があり、さらに効率的です。
当社は、既存のモデルや組織を再ランク付けするための包括的なリーダーボードを提供し、マルチモーダル評価の理解を深め、将来の研究に情報を提供するための洞察を提供します。

要約(オリジナル)

Perceiving and generating diverse modalities are crucial for AI models to effectively learn from and engage with real-world signals, necessitating reliable evaluations for their development. We identify two major issues in current evaluations: (1) inconsistent standards, shaped by different communities with varying protocols and maturity levels; and (2) significant query, grading, and generalization biases. To address these, we introduce MixEval-X, the first any-to-any, real-world benchmark designed to optimize and standardize evaluations across diverse input and output modalities. We propose multi-modal benchmark mixture and adaptation-rectification pipelines to reconstruct real-world task distributions, ensuring evaluations generalize effectively to real-world use cases. Extensive meta-evaluations show our approach effectively aligns benchmark samples with real-world task distributions. Meanwhile, MixEval-X’s model rankings correlate strongly with that of crowd-sourced real-world evaluations (up to 0.98) while being much more efficient. We provide comprehensive leaderboards to rerank existing models and organizations and offer insights to enhance understanding of multi-modal evaluations and inform future research.

arxiv情報

著者 Jinjie Ni,Yifan Song,Deepanway Ghosal,Bo Li,David Junhao Zhang,Xiang Yue,Fuzhao Xue,Zian Zheng,Kaichen Zhang,Mahir Shah,Kabir Jain,Yang You,Michael Shieh
発行日 2024-10-18 08:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM パーマリンク