要約
Iterative Machine Learning Engineering(MLE)ワークフローで、自律的な大手言語モデル(LLM)エージェントを体系的に強化するためのジムスタイルのフレームワークであるMLE-Dojoを紹介します。
主に静的データセットや単一のアトリック評価に依存する既存のベンチマークとは異なり、MLE-Dojoは、構造化されたフィードバックループを介してソリューションを繰り返し実験、デバッグ、および改良できるインタラクティブな環境を提供します。
200以上の実際のKaggleの課題に基づいて構築されたMLE-Dojoは、データ処理、アーキテクチャ検索、ハイパーパラメーターチューニング、コードデバッグなどの現実的なエンジニアリングシナリオを反映するために、多様なオープンエンドMLEタスクを慎重にキュレーションしています。
その完全に実行可能な環境は、監視された微調整と強化学習の両方を介して包括的なエージェントトレーニングをサポートし、反復実験、現実的なデータサンプリング、リアルタイムの結果の検証を促進します。
8つのフロンティアLLMの広範な評価により、現在のモデルは意味のある反復改善を達成しますが、長期溶液を自律的に生成し、複雑なエラーを効率的に解決することで依然として大きな制限を示しています。
さらに、MLE-Dojoの柔軟で拡張可能なアーキテクチャは、多様なデータソース、ツール、および評価プロトコルをシームレスに統合し、モデルベースのエージェントの調整と相互運用性、スケーラビリティ、および再現性を一意に可能にします。
私たちは、フレームワークとベンチマークをオープンソースで、コミュニティ主導のイノベーションを次世代のMLEエージェントに促進します。
要約(オリジナル)
We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement learning, evaluating, and improving autonomous large language model (LLM) agents in iterative machine learning engineering (MLE) workflows. Unlike existing benchmarks that primarily rely on static datasets or single-attempt evaluations, MLE-Dojo provides an interactive environment enabling agents to iteratively experiment, debug, and refine solutions through structured feedback loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse, open-ended MLE tasks carefully curated to reflect realistic engineering scenarios such as data processing, architecture search, hyperparameter tuning, and code debugging. Its fully executable environment supports comprehensive agent training via both supervised fine-tuning and reinforcement learning, facilitating iterative experimentation, realistic data sampling, and real-time outcome verification. Extensive evaluations of eight frontier LLMs reveal that while current models achieve meaningful iterative improvements, they still exhibit significant limitations in autonomously generating long-horizon solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo’s flexible and extensible architecture seamlessly integrates diverse data sources, tools, and evaluation protocols, uniquely enabling model-based agent tuning and promoting interoperability, scalability, and reproducibility. We open-source our framework and benchmarks to foster community-driven innovation towards next-generation MLE agents.
arxiv情報
著者 | Rushi Qiang,Yuchen Zhuang,Yinghao Li,Dingu Sagar V K,Rongzhi Zhang,Changhao Li,Ian Shu-Hei Wong,Sherry Yang,Percy Liang,Chao Zhang,Bo Dai |
発行日 | 2025-05-12 17:35:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google