ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks

要約

大規模言語モデル (LLM) はコード生成ベンチマークで熟練していることを実証していますが、これらの結果を実際の開発シナリオに変換することは、既存のリポジトリ レベルのライブラリを活用するのが標準であるため、依然として困難です。
ラボスケールのベンチマークと実際のコーディング実践の間のギャップを埋めるために、ML-Bench を導入します。ML-Bench は、機械学習タスクを完了するためにリポジトリ レベルのオープンソース ライブラリを統合および利用する LLM の能力を評価するように設計された新しいベンチマークです。
ML-Bench は、18 の GitHub リポジトリから派生した 169 の異なるタスクにわたる 9,641 個のサンプルの多様なセットで構成されています。
私たちの調査結果では、GPT-4 は他の LLM よりも優れているものの、タスクの 33.82% しかうまく対処できないことが明らかになり、課題の複雑さが浮き彫りになっています。
補完的に、コードベースの巧みなナビゲーションと機能コード セグメントの正確な生成が可能なベースライン エージェント ML-Agent を紹介します。
この基盤は、現実世界のプログラミングの複雑さを処理できる、より洗練された LLM エージェントの開発を促進することを目的としています。
私たちのコード、データ、モデルは https://github.com/gersteinlab/ML-bench で入手できます。

要約(オリジナル)

While Large Language Models (LLMs) have demonstrated proficiency in code generation benchmarks, translating these results into practical development scenarios – where leveraging existing repository-level libraries is the norm – remains challenging. To bridge the gap between lab-scale benchmarks and real-world coding practices, we introduce ML-Bench: a novel benchmark designed to assess LLMs’ ability to integrate and utilize repository-level open-source libraries to complete machine learning tasks. ML-Bench comprises a diverse set of 9,641 samples across 169 distinct tasks derived from 18 GitHub repositories. Our findings reveal that while GPT-4 outshines other LLMs, it successfully addresses only 33.82% of the tasks, highlighting the complexity of the challenge. Complementarily, we introduce a baseline agent, ML-Agent, capable of skillful codebase navigation and precise generation of functional code segments. This groundwork aims at catalyzing the development of more sophisticated LLM agents that can handle the intricacies of real-world programming. Our code, data, and models are available at https://github.com/gersteinlab/ML-bench.

arxiv情報

著者 Yuliang Liu,Xiangru Tang,Zefan Cai,Junjie Lu,Yichi Zhang,Yanjun Shao,Zexuan Deng,Helan Hu,Kaikai An,Ruijun Huang,Shuzheng Si,Sheng Chen,Haozhe Zhao,Liang Chen,Yan Wang,Tianyu Liu,Zhiwei Jiang,Baobao Chang,Yujia Qin,Wangchunshu Zhou,Yilun Zhao,Arman Cohan,Mark Gerstein
発行日 2024-04-17 17:13:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク