要約
CodeLLMはコード生成タスクに広く採用されているが、複雑なコンテキスト依存性を持つリポジトリレベルのコード生成を処理する能力はまだ十分に研究されていない。私たちの研究は、実行可能で機能的に正しいコードを生成するために、リポジトリレベルのコンテキストを活用することの重要性を強調しています。我々は、実行可能性、包括的なテストケースの生成による機能的な正しさ、クロスファイルコンテキストの正確な利用という3つの重要な側面に焦点を当てて、リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである「୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛」を発表する。この研究では、開発者が本質的なコード依存関係(コンテキスト)を指定し、それらを効果的に統合するモデルに挑戦する制御シナリオを検証する。さらに、CodeLLMs が依存関係を活用する能力を強化する命令チューニングされたデータセットと、コンテキストの活用を定量化するための新しい指標である 〚Dependency Invocation Rate (DIR)〛を紹介します。実験の結果、事前に訓練されたLLMは正しさの点で優れた性能を示す一方、命令チューニングされたモデルはコンテキストの利用とデバッグ能力で優れていることが明らかになりました。\この結果は、コードの機能性と開発者の意図との整合性を評価するための包括的な評価フレームワークを提供し、実世界のアプリケーションにおいてより信頼性の高いCodeLLMの開発を促進するものです。データセットとソースコードは~url{https://github.com/FSoft-AI4Code/RepoExec}で入手可能です。
要約(オリジナル)
CodeLLMs have gained widespread adoption for code generation tasks, yet their capacity to handle repository-level code generation with complex contextual dependencies remains underexplored. Our work underscores the critical importance of leveraging repository-level contexts to generate executable and functionally correct code. We present \textbf{\methodnamews}, a novel benchmark designed to evaluate repository-level code generation, with a focus on three key aspects: executability, functional correctness through comprehensive test case generation, and accurate utilization of cross-file contexts. Our study examines a controlled scenario where developers specify essential code dependencies (contexts), challenging models to integrate them effectively. Additionally, we introduce an instruction-tuned dataset that enhances CodeLLMs’ ability to leverage dependencies, along with a new metric, \textit{Dependency Invocation Rate (DIR)}, to quantify context utilization. Experimental results reveal that while pretrained LLMs demonstrate superior performance in terms of correctness, instruction-tuned models excel in context utilization and debugging capabilities. \methodnamews offers a comprehensive evaluation framework for assessing code functionality and alignment with developer intent, thereby advancing the development of more reliable CodeLLMs for real-world applications. The dataset and source code are available at~\url{https://github.com/FSoft-AI4Code/RepoExec}.
arxiv情報
著者 | Nam Le Hai,Dung Manh Nguyen,Nghi D. Q. Bui |
発行日 | 2024-09-02 20:26:26+00:00 |
arxivサイト | arxiv_id(pdf) |