ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering

要約

大規模な言語モデル(LLM)ベースのエージェントの出現により、自律機械学習(ML)エンジニアリングの開発が大幅に進歩しました。
ただし、ほとんどの既存のアプローチは、手動の迅速なエンジニアリングに大きく依存しており、多様な実験的経験に基づいて適応と最適化に失敗しています。
これに焦点を当て、初めて、LLMエージェントがオンライン強化学習(RL)を使用してMLタスクでのインタラクティブな実験を通じて学習する学習ベースのエージェントMLのパラダイムを探ります。
これを実現するために、3つの主要なコンポーネントを備えた新しいエージェントMLトレーニングフレームワークを提案します。(1)LLMエージェントが強化されたRL探索のための多様なアクションを生成できるようにする探索豊富な微調整。
(2)段階的なRLは、単一のアクションステップでのトレーニングを可能にし、エクスペリエンスコレクションを加速し、トレーニング効率を改善します。
(3)さまざまなMLフィードバックシグナルをRL最適化のための一貫した報酬に統合するエージェントML固有の報酬モジュール。
このフレームワークを活用して、自律ML用の7BサイズのQWEN-2.5 LLMによって駆動されるML-Agentをトレーニングします。
驚くべきことに、わずか9 mLのタスクで訓練されているにもかかわらず、7BサイズのML-Agentは671BサイズのDeepSeek-R1エージェントよりも優れています。
さらに、継続的なパフォーマンスの改善を達成し、例外的なクロスタスク一般化機能を実証します。

要約(オリジナル)

The emergence of large language model (LLM)-based agents has significantly advanced the development of autonomous machine learning (ML) engineering. However, most existing approaches rely heavily on manual prompt engineering, failing to adapt and optimize based on diverse experimental experiences. Focusing on this, for the first time, we explore the paradigm of learning-based agentic ML, where an LLM agent learns through interactive experimentation on ML tasks using online reinforcement learning (RL). To realize this, we propose a novel agentic ML training framework with three key components: (1) exploration-enriched fine-tuning, which enables LLM agents to generate diverse actions for enhanced RL exploration; (2) step-wise RL, which enables training on a single action step, accelerating experience collection and improving training efficiency; (3) an agentic ML-specific reward module, which unifies varied ML feedback signals into consistent rewards for RL optimization. Leveraging this framework, we train ML-Agent, driven by a 7B-sized Qwen-2.5 LLM for autonomous ML. Remarkably, despite being trained on merely 9 ML tasks, our 7B-sized ML-Agent outperforms the 671B-sized DeepSeek-R1 agent. Furthermore, it achieves continuous performance improvements and demonstrates exceptional cross-task generalization capabilities.

arxiv情報

著者 Zexi Liu,Jingyi Chai,Xinyu Zhu,Shuo Tang,Rui Ye,Bo Zhang,Lei Bai,Siheng Chen
発行日 2025-05-29 17:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク