Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization

要約

簡単なものからハードへのタスクに関する一般化は、言語モデル(LLMS)をプロファイルするために重要ですが、広範囲の複雑さにわたる各問題の微細な困難な注釈を持つデータセットはまだ空白です。
この制限に対処することを目指して、数学やプログラミングの問題、チェスパズル、推論質問など、さまざまなドメインにまたがる6つのベンチマークデータセットの一貫してフォーマットされたコレクションであるEasy2Hard-Benchを提示します。
これらのデータセット内の各問題には、数値難易度スコアが注釈されます。
問題の難しさを体系的に推定するために、現実世界の人間または著名なリーダーボードのLLMによる各問題に対する試みに関する豊富なパフォーマンスデータを収集します。
豊富なパフォーマンスデータを活用すると、アイテム応答理論(IRT)やGlicko-2モデルなどの定評のある難易度ランキングシステムを適用して、数値難易度スコアを問題に均一に割り当てます。
さらに、Easy2Hardベンチのデータセットは、より高い割合の困難な問題によって以前のコレクションと区別します。
最先端のLLMSを6つの広範な実験を通じて、LLM一般化の将来の研究を促すことを目的として、さまざまなレベルの難易度にわたるパフォーマンスと一般化能力の包括的な分析を提供します。
データセットは、https://huggingface.co/datasets/furonghuang-lab/easy2hard-benchで入手できます。

要約(オリジナル)

While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank. Aiming to address this limitation, we present Easy2Hard-Bench, a consistently formatted collection of 6 benchmark datasets spanning various domains, such as mathematics and programming problems, chess puzzles, and reasoning questions. Each problem within these datasets is annotated with numerical difficulty scores. To systematically estimate problem difficulties, we collect abundant performance data on attempts to each problem by humans in the real world or LLMs on the prominent leaderboard. Leveraging the rich performance data, we apply well-established difficulty ranking systems, such as Item Response Theory (IRT) and Glicko-2 models, to uniformly assign numerical difficulty scores to problems. Moreover, datasets in Easy2Hard-Bench distinguish themselves from previous collections by a higher proportion of challenging problems. Through extensive experiments with six state-of-the-art LLMs, we provide a comprehensive analysis of their performance and generalization capabilities across varying levels of difficulty, with the aim of inspiring future research in LLM generalization. The datasets are available at https://huggingface.co/datasets/furonghuang-lab/Easy2Hard-Bench.

arxiv情報

著者 Mucong Ding,Chenghao Deng,Jocelyn Choo,Zichu Wu,Aakriti Agrawal,Avi Schwarzschild,Tianyi Zhou,Tom Goldstein,John Langford,Anima Anandkumar,Furong Huang
発行日 2025-06-09 17:15:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク