SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research

要約

最近、科学研究に大規模言語モデル (LLM) を使用することへの関心が高まっています。
科学研究における LLM の能力を評価するために、数多くのベンチマークが提案されています。
ただし、現在のベンチマークは、ほとんどが事前に収集された客観的な質問に基づいています。
この設計にはデータ漏洩の問題があり、主観的な Q/A 能力の評価が欠如しています。
本稿では、これらの問題に対処するための包括的かつ学際的な評価ベンチマークである SciEval を提案します。
ブルームの分類法に基づいて、SciEval は科学研究能力を体系的に評価する 4 つの側面をカバーしています。
特に、潜在的なデータ漏洩による評価を防ぐために、科学的原理に基づいて「動的」サブセットを設計します。
SciEval には、客観的な質問と主観的な質問の両方が含まれています。
これらの特性により、SciEval は LLM の科学研究能力評価においてより効果的なベンチマークになります。
最も先進的な LLM に関する包括的な実験では、GPT-4 は他の LLM と比較して SOTA パフォーマンスを達成していますが、特に動的質問に関しては、まだ大幅な改善の余地があることが示されています。
データとコードは現在公開されています。

要約(オリジナル)

Recently, there has been growing interest in using Large Language Models (LLMs) for scientific research. Numerous benchmarks have been proposed to evaluate the ability of LLMs for scientific research. However, current benchmarks are mostly based on pre-collected objective questions. This design suffers from data leakage problem and lacks the evaluation of subjective Q/A ability. In this paper, we propose SciEval, a comprehensive and multi-disciplinary evaluation benchmark to address these issues. Based on Bloom’s taxonomy, SciEval covers four dimensions to systematically evaluate scientific research ability. In particular, we design a ‘dynamic’ subset based on scientific principles to prevent evaluation from potential data leakage. Both objective and subjective questions are included in SciEval. These characteristics make SciEval a more effective benchmark for scientific research ability evaluation of LLMs. Comprehensive experiments on most advanced LLMs show that, although GPT-4 achieves SOTA performance compared to other LLMs, there is still substantial room for improvement, especially for dynamic questions. The data and codes are now publicly available.

arxiv情報

著者 Liangtai Sun,Yang Han,Zihan Zhao,Da Ma,Zhennan Shen,Baocai Chen,Lu Chen,Kai Yu
発行日 2023-08-25 03:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク