LAB-Bench: Measuring Capabilities of Language Models for Biology Research

要約

フロンティア大規模言語モデル (LLM) と LLM 拡張システムには、分野を超えた科学的発見を急速に加速する可能性があるという楽観的な見方が広まっています。
現在、教科書形式の科学の質問に対する LLM の知識と推論を測定するベンチマークは数多く存在しますが、文献検索、プロトコルの計画、データ分析など、科学研究に必要な実践的なタスクで言語モデルのパフォーマンスを評価するように設計されたベンチマークは、あったとしてもほとんどありません。
このようなベンチマークを構築するためのステップとして、言語エージェント生物学ベンチマーク (LAB-Bench) を紹介します。これは、文献に対する想起や推論など、さまざまな実践的な生物学の研究能力に基づいて AI システムを評価するための 2,400 を超える多肢選択式の質問からなる広範なデータセットです。
図の解釈、データベースへのアクセスとナビゲーション、DNA とタンパク質の配列の理解と操作。
重要なのは、これまでの科学ベンチマークとは対照的に、より困難な LAB-Bench タスクで一貫して高いスコアを達成できる AI システムが、文献検索や分子クローニングなどの分野で研究者にとって有用なアシスタントとして役立つことを期待していることです。
フロンティア言語モデルの新たな科学的タスクの能力の初期評価として、私たちはベンチマークに対していくつかのモデルのパフォーマンスを測定し、人間の専門生物学研究者と比較した結果を報告します。
当社は今後も LAB-Bench の更新と拡張を継続し、今後の自動研究システムの開発において有用なツールとして機能することを期待しています。
LAB-Bench のパブリック サブセットは、次の URL で使用できます: https://huggingface.co/datasets/futurehouse/lab-bench

要約(オリジナル)

There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench

arxiv情報

著者 Jon M. Laurent,Joseph D. Janizek,Michael Ruzo,Michaela M. Hinks,Michael J. Hammerling,Siddharth Narayanan,Manvitha Ponnapati,Andrew D. White,Samuel G. Rodriques
発行日 2024-07-16 15:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク