要約
大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力により、広く関心を集めている。 しかし、LLMの化学的能力については、限られた体系的な理解しか得られていない。ここでは、最先端のLLMの化学知識と推論能力を、化学者の専門知識と照らし合わせて評価するための自動化されたフレームワークである「ChemBench」を紹介する。 我々は2,700以上の質問と回答のペアを作成し、主要なオープンソースとクローズドソースのLLMを評価した。しかし、モデルはいくつかの基本的なタスクで苦戦し、過信的な予測を行った。 これらの知見は、LLMの素晴らしい化学的能力を明らかにする一方で、その安全性と有用性を向上させるためのさらなる研究の必要性を強調している。また、化学教育の適応を示唆し、特定の領域でLLMを評価するためのベンチマークフレームワークの価値を示している。
要約(オリジナル)
Large language models (LLMs) have gained widespread interest due to their ability to process human language and perform tasks on which they have not been explicitly trained. However, we possess only a limited systematic understanding of the chemical capabilities of LLMs, which would be required to improve models and mitigate potential harm. Here, we introduce ‘ChemBench,’ an automated framework for evaluating the chemical knowledge and reasoning abilities of state-of-the-art LLMs against the expertise of chemists. We curated more than 2,700 question-answer pairs, evaluated leading open- and closed-source LLMs, and found that the best models outperformed the best human chemists in our study on average. However, the models struggle with some basic tasks and provide overconfident predictions. These findings reveal LLMs’ impressive chemical capabilities while emphasizing the need for further research to improve their safety and usefulness. They also suggest adapting chemistry education and show the value of benchmarking frameworks for evaluating LLMs in specific domains.
arxiv情報
著者 | Adrian Mirza,Nawaf Alampara,Sreekanth Kunchapu,Martiño Ríos-García,Benedict Emoekabu,Aswanth Krishnan,Tanya Gupta,Mara Schilling-Wilhelmi,Macjonathan Okereke,Anagha Aneesh,Amir Mohammad Elahi,Mehrdad Asgari,Juliane Eberhardt,Hani M. Elbeheiry,María Victoria Gil,Maximilian Greiner,Caroline T. Holick,Christina Glaubitz,Tim Hoffmann,Abdelrahman Ibrahim,Lea C. Klepsch,Yannik Köster,Fabian Alexander Kreth,Jakob Meyer,Santiago Miret,Jan Matthias Peschel,Michael Ringleb,Nicole Roesner,Johanna Schreiber,Ulrich S. Schubert,Leanne M. Stafast,Dinga Wonanke,Michael Pieler,Philippe Schwaller,Kevin Maik Jablonka |
発行日 | 2024-11-01 07:05:33+00:00 |
arxivサイト | arxiv_id(pdf) |