SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis

要約

大規模言語モデル (LLM) の最近の進歩により、自然言語の理解と生成に革命が起こり、科学文献分析の分野でこれらのテクノロジーを活用することへの関心が高まっています。
しかし、既存のベンチマークでは、科学文献分析、特に複雑な理解と多峰性データを含むシナリオにおける LLM の習熟度を適切に評価できません。
これに応じて、LLM の有効性を徹底的に評価できるように作成された、科学文献の詳細な分析に合わせて調整されたベンチマークである SciAssess を導入しました。
SciAssess は、科学文献分析の文脈の中で、LLM の暗記、理解、分析の能力を評価することに重点を置いています。
一般化学、有機材料、合金材料など、さまざまな科学分野の代表的な課題を取り上げます。
また、厳格な品質管理措置により、正確性、匿名化、著作権順守の点でその信頼性が保証されています。
SciAssess は、GPT-4、GPT-3.5、Gemini などの主要な LLM を評価し、その強みと改善すべき側面を特定し、科学文献分析における LLM アプリケーションの継続的な開発をサポートします。
SciAssess とそのリソースは https://sci-assess.github.io で利用可能であり、科学文献分析における LLM 機能を進化させるための貴重なツールを提供します。

要約(オリジナル)

Recent breakthroughs in Large Language Models (LLMs) have revolutionized natural language understanding and generation, igniting a surge of interest in leveraging these technologies in the field of scientific literature analysis. Existing benchmarks, however, inadequately evaluate the proficiency of LLMs in scientific literature analysis, especially in scenarios involving complex comprehension and multimodal data. In response, we introduced SciAssess, a benchmark tailored for the in-depth analysis of scientific literature, crafted to provide a thorough assessment of LLMs’ efficacy. SciAssess focuses on evaluating LLMs’ abilities in memorization, comprehension, and analysis within the context of scientific literature analysis. It includes representative tasks from diverse scientific fields, such as general chemistry, organic materials, and alloy materials. And rigorous quality control measures ensure its reliability in terms of correctness, anonymization, and copyright compliance. SciAssess evaluates leading LLMs, including GPT-4, GPT-3.5, and Gemini, identifying their strengths and aspects for improvement and supporting the ongoing development of LLM applications in scientific literature analysis. SciAssess and its resources are made available at https://sci-assess.github.io, offering a valuable tool for advancing LLM capabilities in scientific literature analysis.

arxiv情報

著者 Hengxing Cai,Xiaochen Cai,Junhan Chang,Sihang Li,Lin Yao,Changxin Wang,Zhifeng Gao,Hongshuai Wang,Yongge Li,Mujie Lin,Shuwen Yang,Jiankun Wang,Yuqi Yin,Yaqi Li,Linfeng Zhang,Guolin Ke
発行日 2024-03-15 13:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク