要約
AIの研究を自動化することは、科学的進歩を加速するための計り知れない可能性を秘めていますが、現在のAIエージェントは、厳密でエンドツーエンドの実験の複雑さと闘っています。
影響力のあるAI出版物から調達された完全な研究実験でAIエージェントを体系的に評価するように設計された新しいベンチマークであるExp-Benchを紹介します。
研究の質問と不完全なスターターコードを考慮して、Exp-benchはAIエージェントに課題であり、仮説を策定し、実験手順を設計および実装し、それらを実行し、結果を分析します。
このような忠実度を持つこのような複雑で本物のタスクの作成を可能にするために、これらの研究論文とそれに関連するオープンソースコードから重要な実験的詳細を抽出および構築するために、半自律パイプラインを設計します。
パイプラインにより、Exp-benchは51の最高層AI研究論文から461 AI研究タスクをキュレーションしました。
Exp-benchでのOpenHandsやIterativeagentなどの主要なLLMベースのエージェントの評価は部分的な能力を示しています。設計や実装の正しさなどの個々の実験的側面のスコアは20〜35%に達しますが、完全な実行可能な実験の成功率はわずか0.5%でした。
これらのボトルネックを特定し、現実的な段階的な実験手順を提供することにより、Exp-benchは、将来のAIエージェントがAI研究実験を実施する能力を向上させるための重要なツールとして機能します。
exp-benchはhttps://github.com/just-curious/curie/tree/main/benchmark/exp_benchでオープンソーシングされています。
要約(オリジナル)
Automating AI research holds immense potential for accelerating scientific progress, yet current AI agents struggle with the complexities of rigorous, end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed to systematically evaluate AI agents on complete research experiments sourced from influential AI publications. Given a research question and incomplete starter code, EXP-Bench challenges AI agents to formulate hypotheses, design and implement experimental procedures, execute them, and analyze results. To enable the creation of such intricate and authentic tasks with high-fidelity, we design a semi-autonomous pipeline to extract and structure crucial experimental details from these research papers and their associated open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks from 51 top-tier AI research papers. Evaluations of leading LLM-based agents, such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial capabilities: while scores on individual experimental aspects such as design or implementation correctness occasionally reach 20-35%, the success rate for complete, executable experiments was a mere 0.5%. By identifying these bottlenecks and providing realistic step-by-step experiment procedures, EXP-Bench serves as a vital tool for future AI agents to improve their ability to conduct AI research experiments. EXP-Bench is open-sourced at https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
arxiv情報
著者 | Patrick Tser Jern Kon,Jiachen Liu,Xinyi Zhu,Qiuyi Ding,Jingjia Peng,Jiarong Xing,Yibo Huang,Yiming Qiu,Jayanth Srinivasa,Myungjin Lee,Mosharaf Chowdhury,Matei Zaharia,Ang Chen |
発行日 | 2025-06-02 01:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google