SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models

要約

科学研究における大規模言語モデル (LLM) の利用が急増しているため、科学的知識の理解と応用を包括的に評価できる高度なベンチマークが必要です。
このニーズに対処するために、当社は SciKnowEval ベンチマークを導入します。これは、広範囲に学習する、熱心に探究する、深く考える、明確に識別する、熱心に実践するという 5 つの進歩的な科学知識レベルにわたって LLM を体系的に評価する新しいフレームワークです。
これらのレベルは、知識の範囲、調査と探索の能力、熟考と推論の能力、倫理と安全の考慮事項、実践の習熟度など、LLM の科学的知識の広さと深さを評価することを目的としています。
具体的には、生物学と化学を SciKnowEval の 2 つのインスタンスとして取り上げ、50,000 のマルチレベルの科学的問題と解決策を含むデータセットを構築します。
このデータセットを活用することで、ゼロショットおよび少数ショットのプロンプト戦略を使用して、20 の主要なオープンソースおよび独自の LLM のベンチマークを実行します。
この結果は、独自の LLM が最先端のパフォーマンスを達成しているにもかかわらず、特に科学計算やアプリケーションへの対応において、まだかなりの改善の余地があることを明らかにしています。
当社は、SciKnowEval が科学研究および発見における LLM のベンチマークのための包括的な標準を確立し、科学的知識と強力な安全意識を統合する LLM の開発を促進することを期待しています。
データセットとコードは https://github.com/hicai-zju/sciknoveval で公開されています。

要約(オリジナル)

The burgeoning utilization of Large Language Models (LLMs) in scientific research necessitates advanced benchmarks capable of evaluating their understanding and application of scientific knowledge comprehensively. To address this need, we introduce the SciKnowEval benchmark, a novel framework that systematically evaluates LLMs across five progressive levels of scientific knowledge: studying extensively, inquiring earnestly, thinking profoundly, discerning clearly, and practicing assiduously. These levels aim to assess the breadth and depth of scientific knowledge in LLMs, including knowledge coverage, inquiry and exploration capabilities, reflection and reasoning abilities, ethic and safety considerations, as well as practice proficiency. Specifically, we take biology and chemistry as the two instances of SciKnowEval and construct a dataset encompassing 50K multi-level scientific problems and solutions. By leveraging this dataset, we benchmark 20 leading open-source and proprietary LLMs using zero-shot and few-shot prompting strategies. The results reveal that despite achieving state-of-the-art performance, the proprietary LLMs still have considerable room for improvement, particularly in addressing scientific computations and applications. We anticipate that SciKnowEval will establish a comprehensive standard for benchmarking LLMs in science research and discovery, and promote the development of LLMs that integrate scientific knowledge with strong safety awareness. The dataset and code are publicly available at https://github.com/hicai-zju/sciknoweval .

arxiv情報

著者 Kehua Feng,Keyan Ding,Weijie Wang,Xiang Zhuang,Zeyuan Wang,Ming Qin,Yu Zhao,Jianhua Yao,Qiang Zhang,Huajun Chen
発行日 2024-06-13 13:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク