要約
最近の進歩により、AI、特に大規模な言語モデル(LLMS)が科学的研究のための変革的ツールとして位置付けられており、推論、問題解決、意思決定を必要とする複雑なタスクに対処できます。
彼らの卓越した能力は、科学研究助手としての可能性を示唆していますが、実際の科学的アプリケーションの有効性を評価するための全体的で厳格な、ドメイン固有の評価の必要性を強調しています。
この論文では、Argonne National Laboratoryで開発された科学研究助手(EAIRA)としてAIモデルを評価するための多面的な方法論について説明します。
この方法論には、4つの主要なクラスの評価が組み込まれています。
1)事実のリコールを評価するための複数選択の質問。
2)高度な推論と問題解決スキルを評価するためのオープンな対応。
3)制御された環境の研究助手としての能力の詳細な分析を含むラボスタイルの実験。
4)幅広い科学的領域と用途で規模の研究者とLMの相互作用をキャプチャするフィールドスタイルの実験。
これらの補完的な方法により、科学的知識、推論能力、および適応性に関して、LLMの長所と短所の包括的な分析が可能になります。
LLMの進歩の急速なペースを認識して、継続的な関連性と適用性を確保するために進化および適応する方法を設計しました。
このホワイトペーパーでは、2025年2月末の方法論状態について説明します。科学的領域のサブセット内で開発されましたが、方法論は広範囲の科学ドメインに一般化できるように設計されています。
要約(オリジナル)
Recent advancements have positioned AI, and particularly Large Language Models (LLMs), as transformative tools for scientific research, capable of addressing complex tasks that require reasoning, problem-solving, and decision-making. Their exceptional capabilities suggest their potential as scientific research assistants but also highlight the need for holistic, rigorous, and domain-specific evaluation to assess effectiveness in real-world scientific applications. This paper describes a multifaceted methodology for Evaluating AI models as scientific Research Assistants (EAIRA) developed at Argonne National Laboratory. This methodology incorporates four primary classes of evaluations. 1) Multiple Choice Questions to assess factual recall; 2) Open Response to evaluate advanced reasoning and problem-solving skills; 3) Lab-Style Experiments involving detailed analysis of capabilities as research assistants in controlled environments; and 4) Field-Style Experiments to capture researcher-LLM interactions at scale in a wide range of scientific domains and applications. These complementary methods enable a comprehensive analysis of LLM strengths and weaknesses with respect to their scientific knowledge, reasoning abilities, and adaptability. Recognizing the rapid pace of LLM advancements, we designed the methodology to evolve and adapt so as to ensure its continued relevance and applicability. This paper describes the methodology state at the end of February 2025. Although developed within a subset of scientific domains, the methodology is designed to be generalizable to a wide range of scientific domains.
arxiv情報
著者 | Franck Cappello,Sandeep Madireddy,Robert Underwood,Neil Getty,Nicholas Lee-Ping Chia,Nesar Ramachandra,Josh Nguyen,Murat Keceli,Tanwi Mallick,Zilinghan Li,Marieme Ngom,Chenhui Zhang,Angel Yanguas-Gil,Evan Antoniuk,Bhavya Kailkhura,Minyang Tian,Yufeng Du,Yuan-Sen Ting,Azton Wells,Bogdan Nicolae,Avinash Maurya,M. Mustafa Rafique,Eliu Huerta,Bo Li,Ian Foster,Rick Stevens |
発行日 | 2025-02-27 17:35:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google