CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

要約

AI エージェントは、科学研究の実施など、さまざまな結果的なタスクでユーザーを支援する可能性があります。
有用なエージェントの開発を促進するには、困難ではありますが、より重要なことに、関心のある現実世界のタスクに直接対応するベンチマークが必要です。
このペーパーでは、科学研究の重要かつ驚くほど難しい側面である計算の再現性への取り組みにおける AI エージェントの精度を測定するために設計された、そのようなベンチマークを紹介します。
このタスクは科学プロセスの基本であり、提供されたコードとデータを使用して研究結果を再現することが含まれます。
3 つの分野 (コンピューター サイエンス、社会科学、医学) にわたる 90 の科学論文に基づく 270 のタスクで構成されるベンチマークである CORE-Bench (Computational Reproducibility Agent Benchmark) を紹介します。
CORE-Bench のタスクは 3 つの難易度レベルで構成され、言語のみのタスクと視覚言語のタスクの両方が含まれます。
当社は、エージェントの精度を高速かつ並列化可能な方法で測定する評価システムを提供しており、逐次実装と比較して実行ごとの評価時間を数日節約します。
私たちは、汎用 AutoGPT と CORE-Agent と呼ばれるタスク固有のエージェントの 2 つのベースライン エージェントを評価しました。
GPT-4o と GPT-4o-mini という 2 つの基礎となる言語モデルを使用して、両方のバリアントをテストしました。
最も優れたエージェントは、最も困難なタスクで 21% の精度を達成しました。これは、日常的な科学タスクの自動化において改善の余地が大きいことを示しています。
既存の研究を再現できるエージェントを持つことは、新しい研究を実施し、他の研究エージェントのパフォーマンスを検証および改善できるエージェントを構築するために必要なステップです。
私たちは、CORE-Bench によって再現性の状態が改善され、将来の研究用薬剤の開発が促進されることを期待しています。

要約(オリジナル)

AI agents have the potential to aid users on a variety of consequential tasks, including conducting scientific research. To spur the development of useful agents, we need benchmarks that are challenging, but more crucially, directly correspond to real-world tasks of interest. This paper introduces such a benchmark, designed to measure the accuracy of AI agents in tackling a crucial yet surprisingly challenging aspect of scientific research: computational reproducibility. This task, fundamental to the scientific process, involves reproducing the results of a study using the provided code and data. We introduce CORE-Bench (Computational Reproducibility Agent Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers across three disciplines (computer science, social science, and medicine). Tasks in CORE-Bench consist of three difficulty levels and include both language-only and vision-language tasks. We provide an evaluation system to measure the accuracy of agents in a fast and parallelizable way, saving days of evaluation time for each run compared to a sequential implementation. We evaluated two baseline agents: the general-purpose AutoGPT and a task-specific agent called CORE-Agent. We tested both variants using two underlying language models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on the hardest task, showing the vast scope for improvement in automating routine scientific tasks. Having agents that can reproduce existing work is a necessary step towards building agents that can conduct novel research and could verify and improve the performance of other research agents. We hope that CORE-Bench can improve the state of reproducibility and spur the development of future research agents.

arxiv情報

著者 Zachary S. Siegel,Sayash Kapoor,Nitya Nagdir,Benedikt Stroebl,Arvind Narayanan
発行日 2024-09-17 17:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA パーマリンク