ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code

要約

GPT-4 のような大規模言語モデル (LLM) は、関数レベルのコード生成で目覚ましい結果を達成しているにもかかわらず、リポジトリ スケールのコードの理解 (ルーチンを呼び出すための適切な引数を考え出すなど) に苦労しており、複雑なファイルをより深く理解する必要があります。
相互作用。
また、最近では、リポジトリ コードとの対話 (例: コンパイルとその実行の評価) を試みる LLM エージェントが開発されており、そのパフォーマンスを評価する必要性が高まっています。
これらのギャップが、タスクを実行するために既存のコード リポジトリを活用する現実世界のプログラミング アプリケーションに根ざしたベンチマークである ML-Bench の開発の動機となりました。
LLM が長いコード コンテキストを解釈し、命令を正確な実行可能なスクリプトに変換する必要性に対処するため、ML-Bench には 18 の GitHub リポジトリにわたる注釈付きの 9,641 個のサンプルが含まれており、LLM がユーザー指定の引数やドキュメントの複雑さに効果的に対応することが求められています。
LLM と AI エージェントの両方を評価するには、2 つのセットアップが使用されます。事前定義された展開環境内で LLM のテキストからコードへの変換を評価するための ML-LLM-Bench と、エンドツーエンド環境で自律エージェントをテストするための ML-Agent-Bench です。
Linux サンドボックス環境内でのタスクの実行を終了します。
私たちの調査結果は、GPT-4o が 50% を超える Pass@5 率でリードしている一方で、幻覚的な出力や bash スクリプト生成の難しさなどの問題によって浮き彫りになっている、改善の余地が依然として大きいことを示しています。
特に、より要求の厳しい ML エージェント ベンチでは、GPT-4o は 76.47% の成功率を達成しており、複雑なタスク解決における反復アクションとフィードバックの有効性を反映しています。
私たちのコード、データセット、モデルは https://github.com/gersteinlab/ML-bench で入手できます。

要約(オリジナル)

Despite Large Language Models (LLMs) like GPT-4 achieving impressive results in function-level code generation, they struggle with repository-scale code understanding (e.g., coming up with the right arguments for calling routines), requiring a deeper comprehension of complex file interactions. Also, recently, people have developed LLM agents that attempt to interact with repository code (e.g., compiling and evaluating its execution), prompting the need to evaluate their performance. These gaps have motivated our development of ML-Bench, a benchmark rooted in real-world programming applications that leverage existing code repositories to perform tasks. Addressing the need for LLMs to interpret long code contexts and translate instructions into precise, executable scripts, ML-Bench encompasses annotated 9,641 examples across 18 GitHub repositories, challenging LLMs to accommodate user-specified arguments and documentation intricacies effectively. To evaluate both LLMs and AI agents, two setups are employed: ML-LLM-Bench for assessing LLMs’ text-to-code conversion within a predefined deployment environment, and ML-Agent-Bench for testing autonomous agents in an end-to-end task execution within a Linux sandbox environment. Our findings indicate that while GPT-4o leads with a Pass@5 rate surpassing 50%, there remains significant scope for improvement, highlighted by issues such as hallucinated outputs and difficulties with bash script generation. Notably, in the more demanding ML-Agent-Bench, GPT-4o achieves a 76.47% success rate, reflecting the efficacy of iterative action and feedback in complex task resolution. Our code, dataset, and models are available at https://github.com/gersteinlab/ML-bench.

arxiv情報

著者 Xiangru Tang,Yuliang Liu,Zefan Cai,Yanjun Shao,Junjie Lu,Yichi Zhang,Zexuan Deng,Helan Hu,Kaikai An,Ruijun Huang,Shuzheng Si,Sheng Chen,Haozhe Zhao,Liang Chen,Yan Wang,Tianyu Liu,Zhiwei Jiang,Baobao Chang,Yin Fang,Yujia Qin,Wangchunshu Zhou,Yilun Zhao,Arman Cohan,Mark Gerstein
発行日 2024-08-21 13:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク