MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

要約

AIエージェントの最近の進歩は、科学的発見を推進し支援する彼らの可能性の高まりを示しています。
この作業では、自由回答形式の機械学習研究でAIエージェントを評価するための包括的なベンチマークであるMLRベンチを紹介します。
MLRベンチには、3つの主要なコンポーネントが含まれています。(1)ニューリップ、ICLR、およびICMLワークショップから供給された201の研究タスクは、多様なMLトピックを対象としています。
(2)MLR-Judge、LLMベースのレビュアーと慎重に設計されたレビュールーブリックを組み合わせて、研究の質を評価する自動評価フレームワーク。
(3)MLR-Agent、4つの段階で研究タスクを完了できるモジュラーエージェント足場、アイデア生成、提案の定式化、実験、紙の執筆。
私たちのフレームワークは、これらの異なる研究段階での段階的評価と、最終的な研究論文のエンドツーエンドの評価の両方をサポートしています。
次に、MLRベンチを使用して、6つのフロンティアLLMと高度なコーディングエージェントを評価し、LLMはコヒーレントなアイデアと適切に構造化された論文を生成するのに効果的であるが、現在のコーディングエージェントは頻繁に(例えば、ケースの80%で)、科学的な対立性に主要な障壁を配置する実験結果を生成または不変の実験結果を生成することを発見しました。
人間の評価を通じてMLRジュッジを検証し、専門家のレビュアーとの高い合意を示し、研究評価のためのスケーラブルなツールとしての可能性をサポートします。
MLRベンチをオープンソースで、コミュニティのベンチマークを支援し、診断し、改善し、AIの研究エージェントを信頼できる透明な科学的発見に向けて改善します。

要約(オリジナル)

Recent advancements in AI agents have demonstrated their growing potential to drive and support scientific discovery. In this work, we introduce MLR-Bench, a comprehensive benchmark for evaluating AI agents on open-ended machine learning research. MLR-Bench includes three key components: (1) 201 research tasks sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2) MLR-Judge, an automated evaluation framework combining LLM-based reviewers with carefully designed review rubrics to assess research quality; and (3) MLR-Agent, a modular agent scaffold capable of completing research tasks through four stages: idea generation, proposal formulation, experimentation, and paper writing. Our framework supports both stepwise assessment across these distinct research stages, and end-to-end evaluation of the final research paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced coding agent, finding that while LLMs are effective at generating coherent ideas and well-structured papers, current coding agents frequently (e.g., in 80% of the cases) produce fabricated or invalidated experimental results–posing a major barrier to scientific reliability. We validate MLR-Judge through human evaluation, showing high agreement with expert reviewers, supporting its potential as a scalable tool for research evaluation. We open-source MLR-Bench to help the community benchmark, diagnose, and improve AI research agents toward trustworthy and transparent scientific discovery.

arxiv情報

著者 Hui Chen,Miao Xiong,Yujie Lu,Wei Han,Ailin Deng,Yufei He,Jiaying Wu,Yibo Li,Yue Liu,Bryan Hooi
発行日 2025-05-26 13:18:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク