要約
従来の固定テストセットは、基礎モデルのオープンエンド機能の評価に不足しています。
これに対処するために、個々の評価データセットを統合され、拡大し続けるサンプルプールに統合する新しいテストパラダイムであるOneBench(オープンエンドベンチマーク)を提案します。
OneBenchを使用すると、ユーザーは、関心のある特定の機能に対応するこのプールから、カスタムオープンエンドの評価ベンチマークを生成できます。
テストセット全体でサンプルを集約することにより、OneBenchは、元のテストセットでカバーされているものを超える多様な機能の評価を可能にし、過剰適合とデータセットバイアスを緩和します。
最も重要なことは、サンプルレベルのテストを選択および集約する集合プロセスとしてモデル評価をフレーム化することです。
タスク固有のベンチマークからOneBenchへの移行は、(1)不均一性と(2)不完全性の2つの課題を導入します。
不均一性とは、多様なメトリックよりも集約を指し、不完全性は異なるデータサブセットで評価されたモデルの比較を記述します。
これらの課題に対処するために、アルゴリズムを調査して、まばらな測定値を信頼できるモデルスコアに集約します。
集約アルゴリズムにより、識別可能性(漸近的に回復するグラウンドスコアスコア)と迅速な収束を保証し、より少ないデータで正確なモデルランキングを可能にします。
同種のデータセットでは、集約アルゴリズムが平均スコアによって生成されたものと高度に相関するランキングを提供することを示します。
また、測定値の約95%に対する堅牢性を示し、モデルランキングの変更はほとんどなく、評価コストを最大20倍削減します。
これらのドメイン全体で評価を統合するために、言語モデルにはOneBench-llm、Vision-LanguageモデルにはOnebench-lmmを紹介します。
全体として、オープンエンドの評価の手法を提示します。オープンエンド評価は、急速に発展している基礎モデルと並んでベンチマークを継続的に成長させるために、不完全で不均一なサンプルレベルの測定値を集約できます。
要約(オリジナル)
Traditional fixed test sets fall short in evaluating open-ended capabilities of foundation models. To address this, we propose ONEBench(OpeN-Ended Benchmarking), a new testing paradigm that consolidates individual evaluation datasets into a unified, ever-expanding sample pool. ONEBench allows users to generate custom, open-ended evaluation benchmarks from this pool, corresponding to specific capabilities of interest. By aggregating samples across test sets, ONEBench enables the assessment of diverse capabilities beyond those covered by the original test sets, while mitigating overfitting and dataset bias. Most importantly, it frames model evaluation as a collective process of selecting and aggregating sample-level tests. The shift from task-specific benchmarks to ONEBench introduces two challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the aggregation over diverse metrics, while incompleteness describes comparing models evaluated on different data subsets. To address these challenges, we explore algorithms to aggregate sparse measurements into reliable model scores. Our aggregation algorithm ensures identifiability(asymptotically recovering ground-truth scores) and rapid convergence, enabling accurate model ranking with less data. On homogenous datasets, we show our aggregation algorithm provides rankings that highly correlate with those produced by average scores. We also demonstrate robustness to ~95% of measurements missing, reducing evaluation cost by up to 20x with little-to-no change in model rankings. We introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language models, unifying evaluations across these domains. Overall, we present a technique for open-ended evaluation, which can aggregate over incomplete, heterogeneous sample-level measurements to continually grow a benchmark alongside the rapidly developing foundation models.
arxiv情報
著者 | Adhiraj Ghosh,Sebastian Dziadzio,Ameya Prabhu,Vishaal Udandarao,Samuel Albanie,Matthias Bethge |
発行日 | 2025-06-17 15:57:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google