SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、多くの数学的ベンチマークで顕著な進歩が実証されました。
ただし、これらのベンチマークのほとんどは、中学および高校の教科に基づいた問題のみを取り上げており、多肢選択問題のみが含まれており、初歩的な算術演算の限られた範囲に限定されています。
これらの問題に対処するために、このホワイトペーパーでは、複雑な科学的問題の解決に必要な推論能力を系統的に調べることを目的とした、拡張的なベンチマーク スイート SciBench を紹介します。
SciBench には、慎重に精選された 2 つのデータセットが含まれています。1 つは数学、化学、物理学の教科書から抜粋されたさまざまな大学レベルの科学問題を特徴とするオープン セット、もう 1 つはコンピューター サイエンスと数学の学部レベルの試験の問題で構成されるクローズド セットです。
2 つのデータセットに基づいて、さまざまなプロンプト戦略を備えた 2 つの代表的な LLM の詳細なベンチマーク調査を実施します。
結果は、現在の LLM が満足のいくパフォーマンスを提供するには至っておらず、全体スコアがわずか 35.80% であることを示しています。
さらに、詳細なユーザー調査を通じて、LLM が犯したエラーを 10 の問題解決能力に分類しました。
私たちの分析によると、単一のプロンプト戦略が他の戦略よりも大幅に優れているということはなく、特定の問題解決スキルの向上を示すいくつかの戦略は、他のスキルの低下につながることが示されています。
私たちは、SciBench が LLM の推論能力のさらなる発展を促進し、それによって最終的には科学の研究と発見に貢献することを想定しています。

要約(オリジナル)

Recent advances in large language models (LLMs) have demonstrated notable progress on many mathematical benchmarks. However, most of these benchmarks only feature problems grounded in junior and senior high school subjects, contain only multiple-choice questions, and are confined to a limited scope of elementary arithmetic operations. To address these issues, this paper introduces an expansive benchmark suite SciBench that aims to systematically examine the reasoning capabilities required for complex scientific problem solving. SciBench contains two carefully curated datasets: an open set featuring a range of collegiate-level scientific problems drawn from mathematics, chemistry, and physics textbooks, and a closed set comprising problems from undergraduate-level exams in computer science and mathematics. Based on the two datasets, we conduct an in-depth benchmark study of two representative LLMs with various prompting strategies. The results reveal that current LLMs fall short of delivering satisfactory performance, with an overall score of merely 35.80%. Furthermore, through a detailed user study, we categorize the errors made by LLMs into ten problem-solving abilities. Our analysis indicates that no single prompting strategy significantly outperforms others and some strategies that demonstrate improvements in certain problem-solving skills result in declines in other skills. We envision that SciBench will catalyze further developments in the reasoning abilities of LLMs, thereby ultimately contributing to scientific research and discovery.

arxiv情報

著者 Xiaoxuan Wang,Ziniu Hu,Pan Lu,Yanqiao Zhu,Jieyu Zhang,Satyen Subramaniam,Arjun R. Loomba,Shichang Zhang,Yizhou Sun,Wei Wang
発行日 2023-07-20 07:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク