MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

要約

AI エージェントが機械学習エンジニアリングでどの程度優れたパフォーマンスを発揮するかを測定するためのベンチマークである MLE ベンチを紹介します。
この目的を達成するために、私たちは Kaggle から 75 の ML エンジニアリング関連のコンテストを厳選し、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の ML エンジニアリング スキルをテストするさまざまな挑戦的なタスクのセットを作成します。
私たちは、Kaggle の公開されているリーダーボードを使用して、各コンテストに対する人間のベースラインを確立します。
私たちは、オープンソースのエージェント スキャフォールドを使用して、ベンチマークでいくつかのフロンティア言語モデルを評価しました。その結果、最もパフォーマンスの高いセットアップ (AIDE スキャフォールディングを使用した OpenAI の o1-preview) が、16.9% のコンペティションで少なくとも Kaggle の銅メダルのレベルを達成していることがわかりました。

主な結果に加えて、AI エージェントのさまざまな形式のリソース スケーリングと、事前トレーニングによる汚染の影響を調査します。
AI エージェントの ML エンジニアリング機能を理解するための将来の研究を促進するために、ベンチマーク コード (github.com/openai/mle-bench/) をオープンソースにしています。

要約(オリジナル)

We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle’s publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup–OpenAI’s o1-preview with AIDE scaffolding–achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents.

arxiv情報

著者 Jun Shern Chan,Neil Chowdhury,Oliver Jaffe,James Aung,Dane Sherburn,Evan Mays,Giulio Starace,Kevin Liu,Leon Maksin,Tejal Patwardhan,Lilian Weng,Aleksander Mądry
発行日 2024-12-20 13:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク