ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities

要約

従来の固定テスト セットでは、基礎モデルのオープンエンド機能を評価するには不十分です。
これに対処するために、私たちは、個々の評価データセットを統一された拡大し続けるサンプル プールに統合する新しいテスト パラダイムである ONEBench (OpeN-Ended Benchmarking) を提案します。
ONEBench を使用すると、ユーザーは、関心のある特定の機能に対応する、このプールからカスタムの無制限の評価ベンチマークを生成できます。
ONEBench は、テスト セット全体でサンプルを集約することで、元のテスト セットでカバーされる機能を超えた多様な機能を評価できるようにすると同時に、過剰適合やデータセットの偏りを軽減します。
最も重要なのは、モデル評価をサンプルレベルのテストを選択して集計する集合的なプロセスとして組み立てることです。
タスク固有のベンチマークから ONEBench への移行により、(1) 異質性と (2) 不完全性という 2 つの課題が生じます。
異質性はさまざまなメトリクスの集計を指しますが、不完全性はさまざまなデータ サブセットで評価されたモデルの比較を指します。
これらの課題に対処するために、私たちはまばらな測定値を信頼できるモデル スコアに集約するアルゴリズムを探索します。
当社の集計アルゴリズムは、識別可能性 (グラウンドトゥルース スコアを漸近的に回復する) と迅速な収束を保証し、少ないデータで正確なモデルのランク付けを可能にします。
同種のデータセットでは、集計アルゴリズムが平均スコアによって生成されたランキングと高度に相関するランキングを提供することを示します。
また、最大 95% の測定値の欠落に対する堅牢性も実証しており、モデルのランキングにほとんど変化を与えずに評価コストを最大 20 分の 1 に削減します。
言語モデルには ONEBench-LLM を、視覚言語モデルには ONEBench-LMM を導入し、これらのドメイン全体で評価を統一します。
全体として、我々は、不完全で異質なサンプルレベルの測定を集約して、急速に発展する基礎モデルと並行してベンチマークを継続的に成長させることができる、オープンエンド評価の手法を紹介します。

要約(オリジナル)

Traditional fixed test sets fall short in evaluating open-ended capabilities of foundation models. To address this, we propose ONEBench(OpeN-Ended Benchmarking), a new testing paradigm that consolidates individual evaluation datasets into a unified, ever-expanding sample pool. ONEBench allows users to generate custom, open-ended evaluation benchmarks from this pool, corresponding to specific capabilities of interest. By aggregating samples across test sets, ONEBench enables the assessment of diverse capabilities beyond those covered by the original test sets, while mitigating overfitting and dataset bias. Most importantly, it frames model evaluation as a collective process of selecting and aggregating sample-level tests. The shift from task-specific benchmarks to ONEBench introduces two challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the aggregation over diverse metrics, while incompleteness describes comparing models evaluated on different data subsets. To address these challenges, we explore algorithms to aggregate sparse measurements into reliable model scores. Our aggregation algorithm ensures identifiability(asymptotically recovering ground-truth scores) and rapid convergence, enabling accurate model ranking with less data. On homogenous datasets, we show our aggregation algorithm provides rankings that highly correlate with those produced by average scores. We also demonstrate robustness to ~95% of measurements missing, reducing evaluation cost by up to 20x with little-to-no change in model rankings. We introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language models, unifying evaluations across these domains. Overall, we present a technique for open-ended evaluation, which can aggregate over incomplete, heterogeneous sample-level measurements to continually grow a benchmark alongside the rapidly developing foundation models.

arxiv情報

著者 Adhiraj Ghosh,Sebastian Dziadzio,Ameya Prabhu,Vishaal Udandarao,Samuel Albanie,Matthias Bethge
発行日 2024-12-09 18:37:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク