RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts

要約

フロンティア AI 安全ポリシーでは、予測すべき重要な機能として、AI エージェントによる AI 研究開発 (R&D) の自動化が強調されています。
しかし、AIの研究開発能力に関する評価はほとんど存在せず、人間のパフォーマンスと直接比較できる現実性の高い評価は存在しません。
RE-Bench (Research Engineering Benchmark、v1) を紹介します。これは、7 つの挑戦的でオープンエンドの ML 研究エンジニアリング環境と、61 人の異なる人間の専門家による 71 回の 8 時間の試行から得られたデータで構成されています。
当社のエキスパートが 8 時間与えられた環境で進歩し、エキスパートの試行の 82% がゼロ以外のスコアを達成し、24% が当社の強力なリファレンス ソリューションと同等またはそれを上回っていることを確認しています。
私たちは、さまざまな時間予算とエージェント設計を使用した Best-of-K を通じて、人間をいくつかのパブリック フロンティア モデルと比較しました。その結果、両方の環境に合計 2 時間の時間予算が与えられた場合、最高の AI エージェントは人間の専門家よりも 4 倍高いスコアを達成することがわかりました。

しかし、人間は現在、時間予算の増加に対してより良い収益を示しており、8 時間の予算を与えられた場合のトップ AI エージェントのスコアを僅差で上回り、両方に合計 32 時間を与えた場合(異なる試行間で)トップ AI エージェントのスコアの 2 倍を達成しています。
定性的には、現代の AI エージェントは多くの ML トピックに関して重要な専門知識を持っていることがわかりました。
エージェントは、人間の専門家が作成したものよりも高速なカスタム Triton カーネルを作成し、人間よりも 10 倍以上速く、はるかに低いコストでソリューションを生成してテストできます。
当社は、将来の研究を促進するために、評価環境、人間の専門家データ、分析コード、およびエージェントの軌跡をオープンソースにしています。

要約(オリジナル)

Frontier AI safety policies highlight automation of AI research and development (R&D) by AI agents as an important capability to anticipate. However, there exist few evaluations for AI R&D capabilities, and none that are highly realistic and have a direct comparison to human performance. We introduce RE-Bench (Research Engineering Benchmark, v1), which consists of 7 challenging, open-ended ML research engineering environments and data from 71 8-hour attempts by 61 distinct human experts. We confirm that our experts make progress in the environments given 8 hours, with 82% of expert attempts achieving a non-zero score and 24% matching or exceeding our strong reference solutions. We compare humans to several public frontier models through best-of-k with varying time budgets and agent designs, and find that the best AI agents achieve a score 4x higher than human experts when both are given a total time budget of 2 hours per environment. However, humans currently display better returns to increasing time budgets, narrowly exceeding the top AI agent scores given an 8-hour budget, and achieving 2x the score of the top AI agent when both are given 32 total hours (across different attempts). Qualitatively, we find that modern AI agents possess significant expertise in many ML topics — e.g. an agent wrote a faster custom Triton kernel than any of our human experts’ — and can generate and test solutions over ten times faster than humans, at much lower cost. We open-source the evaluation environments, human expert data, analysis code and agent trajectories to facilitate future research.

arxiv情報

著者 Hjalmar Wijk,Tao Lin,Joel Becker,Sami Jawhar,Neev Parikh,Thomas Broadley,Lawrence Chan,Michael Chen,Josh Clymer,Jai Dhyani,Elena Ericheva,Katharyn Garcia,Brian Goodrich,Nikola Jurkovic,Megan Kinniment,Aron Lajko,Seraphina Nix,Lucas Sato,William Saunders,Maksym Taran,Ben West,Elizabeth Barnes
発行日 2024-11-22 18:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク