YourBench: Easy Custom Evaluation Sets for Everyone

要約

従来の静的ベンチマークが飽和と汚染に悩まされている一方で、人間の評価は費用と遅いため、大規模な言語モデル(LLM)を評価することは重要なボトルネックのままです。
これは、現実世界のアプリケーションにとって重要なタイムリーまたはドメイン固有の評価を妨げます。
ユーザーが提供するドキュメントから直接、手動注釈なしで、信頼性の高い最新の、ドメインにテイアルされたベンチマークを安価に安定に可能にすることにより、これらの制限に対処する、これらの制限に対処する斬新なオープンソースフレームワークであるYourBenchを紹介します。
最小限のソーステキストを使用して7つの多様なMMLUサブセットを複製することにより、その有効性を示し、総推論コストで15 USD未満でこれを達成しながら、元のベンチマークで観察された相対モデルのパフォーマンスランキング(スピアマンRHO = 1)を完全に保持します。
モデルの事後パラメトリック知識に依存する代わりに提供された入力に基づいたデータを生成するために、2025年3月以降にのみ公開された7Kを超える多様なドキュメントの新しいデータセットであるThepa-0325も紹介します。
アルゴリズムチェック(例:引用の接地)および人間の評価。
Yourbenchライブラリ、ThePpea-0325データセット、150k+質問回答ペア、およびすべての評価と推論のトレースに基づいて、再現可能な研究を促進し、コミュニティが需要のあるオーダーメイドのベンチマークを生成し、より関連性が高く信頼できるLLM評価を促進できるようにします。

要約(オリジナル)

Evaluating large language models (LLMs) effectively remains a critical bottleneck, as traditional static benchmarks suffer from saturation and contamination, while human evaluations are costly and slow. This hinders timely or domain-specific assessment, crucial for real-world applications. We introduce YourBench, a novel, open-source framework that addresses these limitations by enabling dynamic, automated generation of reliable, up-to-date, and domain-tailored benchmarks cheaply and without manual annotation, directly from user-provided documents. We demonstrate its efficacy by replicating 7 diverse MMLU subsets using minimal source text, achieving this for under 15 USD in total inference costs while perfectly preserving the relative model performance rankings (Spearman Rho = 1) observed on the original benchmark. To ensure that YourBench generates data grounded in provided input instead of relying on posterior parametric knowledge in models, we also introduce Tempora-0325, a novel dataset of over 7K diverse documents, published exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models from 7 major families across varying scales (3-671B parameters) to validate the quality of generated evaluations through rigorous algorithmic checks (e.g., citation grounding) and human assessments. We release the YourBench library, the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all evaluation and inference traces to facilitate reproducible research and empower the community to generate bespoke benchmarks on demand, fostering more relevant and trustworthy LLM evaluation.

arxiv情報

著者 Sumuk Shashidhar,Clémentine Fourrier,Alina Lozovskia,Thomas Wolf,Gokhan Tur,Dilek Hakkani-Tür
発行日 2025-04-02 15:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.1 パーマリンク