要約
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示しています。
ただし、これらのベンチマークの成果と実際の適用可能性の間にはかなりの隔たりがあり、これは主に現実世界のプログラミングが既存のライブラリに依存していることに起因します。
この研究では、LLM を最初からコード化して評価するのではなく、LLM がオープンソース ライブラリを使用して機械学習タスクを完了する新しい評価セットアップを提案することを目的としています。
したがって、オープンソース ライブラリの既存の機能を活用する際の LLM の有効性を評価するために開発された拡張的なベンチマークである ML-Bench を提案します。
14 の著名な機械学習 GitHub リポジトリにわたる 130 のタスクにわたる 10,044 のサンプルで構成されています。
この設定では、コードベース内の特定の機械学習タスク命令とそれに付随する README が与えられると、LLM はタスクを達成するためのコードを生成するタスクを負います。
これには、複雑なファイル間コード構造の理解だけでなく、言語コードがインターリーブされた長い文書の理解も必要となり、新たな課題が生じます。
特に、GPT-4 は他の LLM に比べて顕著な改善を示していますが、タスクの 39.73\% しか達成できず、改善の余地が膨大に残されています。
私たちは、コードベースを効果的に移動し、ドキュメントを見つけ、コードを取得し、実行可能コードを生成するように設計された ML-Agent を提案することで、これらの課題に対処します。
実験結果は、GPT-4 に基づいて構築された ML-Agent がさらなる改善をもたらすことを示しています。
コード、データ、モデルは \url{https://ml-bench.github.io/} で入手できます。
要約(オリジナル)
Large language models have shown promising performance in code generation benchmarks. However, a considerable divide exists between these benchmark achievements and their practical applicability, primarily attributed to real-world programming’s reliance on pre-existing libraries. Instead of evaluating LLMs to code from scratch, this work aims to propose a new evaluation setup where LLMs use open-source libraries to finish machine learning tasks. Therefore, we propose ML-Bench, an expansive benchmark developed to assess the effectiveness of LLMs in leveraging existing functions in open-source libraries. Consisting of 10044 samples spanning 130 tasks over 14 notable machine learning GitHub repositories. In this setting, given a specific machine learning task instruction and the accompanying README in a codebase, an LLM is tasked to generate code to accomplish the task. This necessitates the comprehension of long and language-code interleaved documents, as well as the understanding of complex cross-file code structures, introducing new challenges. Notably, while GPT-4 exhibits remarkable improvement over other LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space for improvement. We address these challenges by proposing ML-Agent, designed to effectively navigate the codebase, locate documentation, retrieve code, and generate executable code. Empirical results demonstrate that ML-Agent, built upon GPT-4, results in further improvements. Code, data, and models are available at \url{https://ml-bench.github.io/}.
arxiv情報
著者 | Yuliang Liu,Xiangru Tang,Zefan Cai,Junjie Lu,Yichi Zhang,Yanjun Shao,Zexuan Deng,Helan Hu,Zengxian Yang,Kaikai An,Ruijun Huang,Shuzheng Si,Sheng Chen,Haozhe Zhao,Zhengliang Li,Liang Chen,Yiming Zong,Yan Wang,Tianyu Liu,Zhiwei Jiang,Baobao Chang,Yujia Qin,Wangchunshu Zhou,Yilun Zhao,Arman Cohan,Mark Gerstein |
発行日 | 2023-11-16 12:03:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google