要約
時系列機械学習エンジニアリングの課題で人工知能(AI)エージェントを評価するためのスケーラブルなベンチマークフレームワークであるTimeseriesgymを紹介します。
既存のベンチマークにはスケーラビリティがなく、明確に定義された設定でモデル構築に狭く焦点を当て、限られた一連の研究アーティファクト(CSV提出ファイルなど)のみを評価します。
AIエージェントベンチマークを機械学習エンジニアリングの実践により関連させるために、2つの重要な次元に沿ってフレームワークが拡大します。
第一に、効果的なMLエンジニアリングにはさまざまなスキルが必要であることを認識すると、TimeSeriesGymには複数のドメインとタスクにまたがる多様なソースからの課題が組み込まれています。
孤立した機能(データ処理、研究リポジトリの理解、コード翻訳の理解など)とその組み合わせの両方を評価するための課題を設計し、各課題に独立して対処するのではなく、大規模な複数の課題の設計をサポートするツールを開発します。
第二に、正確な数値尺度とより柔軟なLLMベースの評価アプローチの両方を使用して、提出ファイル、コード、モデルなど、複数の研究アーティファクトの評価メカニズムを実装します。
この二重戦略は、客観的評価と文脈上の判断のバランスをとります。
当初の焦点は時系列アプリケーションにありますが、私たちのフレームワークは他のデータモダリティに容易に拡張でき、エージェントAI評価の包括性と実用性を大幅に向上させることができます。
AIエージェントのMLエンジニアリング機能に関する将来の研究を促進するために、ベンチマークフレームワークをオープンソーシングします。
要約(オリジナル)
We introduce TimeSeriesGym, a scalable benchmarking framework for evaluating Artificial Intelligence (AI) agents on time series machine learning engineering challenges. Existing benchmarks lack scalability, focus narrowly on model building in well-defined settings, and evaluate only a limited set of research artifacts (e.g., CSV submission files). To make AI agent benchmarking more relevant to the practice of machine learning engineering, our framework scales along two critical dimensions. First, recognizing that effective ML engineering requires a range of diverse skills, TimeSeriesGym incorporates challenges from diverse sources spanning multiple domains and tasks. We design challenges to evaluate both isolated capabilities (including data handling, understanding research repositories, and code translation) and their combinations, and rather than addressing each challenge independently, we develop tools that support designing multiple challenges at scale. Second, we implement evaluation mechanisms for multiple research artifacts, including submission files, code, and models, using both precise numeric measures and more flexible LLM-based evaluation approaches. This dual strategy balances objective assessment with contextual judgment. Although our initial focus is on time series applications, our framework can be readily extended to other data modalities, broadly enhancing the comprehensiveness and practical utility of agentic AI evaluation. We open-source our benchmarking framework to facilitate future research on the ML engineering capabilities of AI agents.
arxiv情報
著者 | Yifu Cai,Xinyu Li,Mononito Goswami,Michał Wiliński,Gus Welter,Artur Dubrawski |
発行日 | 2025-05-19 16:11:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google