要約
大規模な言語モデル(LLM)は、日常のアプリケーションでますます展開されており、堅牢な一般的な推論能力と多様な推論スキルセットを要求しています。
ただし、現在のLLM推論ベンチマークは、主に数学的およびコーディング能力に焦点を当てており、より広範な推論の習慣を評価する際にギャップを残しています。
特定の例外の1つは、LLMの一般的な推論能力を評価するための重要なベンチマークとして機能してきた大手ベンチデータセットです。これは、統一されたフレームワーク内のさまざまなスキルにわたる一般的な推論の包括的な評価を可能にする多様な挑戦的なタスクのおかげで。
ただし、LLMSの最近の進歩により、Big-Benchの飽和が生じ、その難しいバージョンのBig-Bench Hard(BBH)が生じています。
最先端のモデルは、BBHの多くのタスクでほぼ完璧なスコアを達成し、そのユーティリティを減少させます。
この制限に対処するために、LLM推論評価の境界を押し広げるために設計された新しいベンチマークであるBig-Bench Extra Hard(BBEH)を紹介します。
BBEHは、BBHの各タスクを、同様の推論能力を調査するが、困難を大幅に増加させる新しいタスクに置き換えます。
BBEHのさまざまなモデルを評価し、最高の汎用モデルでは9.8 \%の(高調波)精度を観察し、最良の推論専門モデルでは44.8 \%を観察します。
https://github.com/google-deepmind/bbehでBBEHを公開します。
要約(オリジナル)
Large language models (LLMs) are increasingly deployed in everyday applications, demanding robust general reasoning capabilities and diverse reasoning skillset. However, current LLM reasoning benchmarks predominantly focus on mathematical and coding abilities, leaving a gap in evaluating broader reasoning proficiencies. One particular exception is the BIG-Bench dataset, which has served as a crucial benchmark for evaluating the general reasoning capabilities of LLMs, thanks to its diverse set of challenging tasks that allowed for a comprehensive assessment of general reasoning across various skills within a unified framework. However, recent advances in LLMs have led to saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH). State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus diminishing its utility. To address this limitation, we introduce BIG-Bench Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM reasoning evaluation. BBEH replaces each task in BBH with a novel task that probes a similar reasoning capability but exhibits significantly increased difficulty. We evaluate various models on BBEH and observe a (harmonic) average accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best reasoning-specialized model, indicating substantial room for improvement and highlighting the ongoing challenge of achieving robust general reasoning in LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.
arxiv情報
著者 | Mehran Kazemi,Bahare Fatemi,Hritik Bansal,John Palowitch,Chrysovalantis Anastasiou,Sanket Vaibhav Mehta,Lalit K. Jain,Virginia Aglietti,Disha Jindal,Peter Chen,Nishanth Dikkala,Gladys Tyen,Xin Liu,Uri Shalit,Silvia Chiappa,Kate Olszewska,Yi Tay,Vinh Q. Tran,Quoc V. Le,Orhan Firat |
発行日 | 2025-02-26 14:50:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google