LiveBench: A Challenging, Contamination-Free LLM Benchmark

要約

ベンチマークからのテスト データが新しいモデルのトレーニング セットに入るテスト セットの汚染は、公正な LLM 評価にとって十分に文書化された障害であり、ベンチマークがすぐに時代遅れになる可能性があります。
これを軽減するために、最近のベンチマークの多くは、人間または LLM の審査員からの新しいプロンプトと評価をクラウドソーシングしています。
ただし、これらは重大なバイアスをもたらし、難しい質問を採点するときに機能しなくなる可能性があります。
この研究では、テストセットの汚染と、LLM 判定と人間によるクラウドソーシングの落とし穴の両方に影響されないように設計された LLM の新しいベンチマークを紹介します。
当社は LiveBench をリリースします。これは、(1) 最近の情報ソースから頻繁に更新される質問を含み、(2) 客観的なグラウンドトゥルース値に従って回答を自動的に採点し、(3) 数学、
コーディング、推論、言語、指示に従い、データ分析。
これを達成するために、LiveBench には、最近リリースされた数学コンテスト、arXiv 論文、ニュース記事、データセットに基づく問題が含まれており、Big-Bench Hard、AMPS、
IFEval。
私たちは、多くの著名なクローズドソース モデルだけでなく、サイズが 0.5B から 110B までの数十のオープンソース モデルを評価します。
LiveBench は難しく、トップモデルの精度は 65% 未満です。
すべての問題、コード、模範解答を公開します。
質問は毎月追加および更新されます。また、今後改善される LLM の機能を LiveBench が区別できるように、新しいタスクやタスクのより難しいバージョンを時間の経過とともにリリースしていきます。
ベンチマーク タスクとモデルを拡張するためのコミュニティの参加と協力を歓迎します。

要約(オリジナル)

Test set contamination, wherein test data from a benchmark ends up in a newer model’s training set, is a well-documented obstacle for fair LLM evaluation and can quickly render benchmarks obsolete. To mitigate this, many recent benchmarks crowdsource new prompts and evaluations from human or LLM judges; however, these can introduce significant biases, and break down when scoring hard questions. In this work, we introduce a new benchmark for LLMs designed to be immune to both test set contamination and the pitfalls of LLM judging and human crowdsourcing. We release LiveBench, the first benchmark that (1) contains frequently-updated questions from recent information sources, (2) scores answers automatically according to objective ground-truth values, and (3) contains a wide variety of challenging tasks, spanning math, coding, reasoning, language, instruction following, and data analysis. To achieve this, LiveBench contains questions that are based on recently-released math competitions, arXiv papers, news articles, and datasets, and it contains harder, contamination-free versions of tasks from previous benchmarks such as Big-Bench Hard, AMPS, and IFEval. We evaluate many prominent closed-source models, as well as dozens of open-source models ranging from 0.5B to 110B in size. LiveBench is difficult, with top models achieving below 65% accuracy. We release all questions, code, and model answers. Questions will be added and updated on a monthly basis, and we will release new tasks and harder versions of tasks over time so that LiveBench can distinguish between the capabilities of LLMs as they improve in the future. We welcome community engagement and collaboration for expanding the benchmark tasks and models.

arxiv情報

著者 Colin White,Samuel Dooley,Manley Roberts,Arka Pal,Ben Feuer,Siddhartha Jain,Ravid Shwartz-Ziv,Neel Jain,Khalid Saifullah,Siddartha Naidu,Chinmay Hegde,Yann LeCun,Tom Goldstein,Willie Neiswanger,Micah Goldblum
発行日 2024-06-27 16:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク