要約
大規模な言語モデルは実際的に重要であるため、コード関連のタスクにおけるパフォーマンスの向上に重点を置いた研究が行われています。
通常、パフォーマンスは公開ベンチマーク データセットを使用して評価されますが、既存のデータセットでは、プロフェッショナルなソフトウェア開発において重要な \emph{version} の概念が考慮されていません。
このペーパーでは、大規模な言語モデルが特定のライブラリ バージョンの検証可能なコードを生成する能力を評価するために設計された最初の包括的なデータセットである VersiCode を紹介します。
VersiCode には、9 年間にわたる 2,000 以上のバージョンにわたる 300 のライブラリが含まれています。
私たちは、バージョン固有のコード補完 (VSCC) とバージョン認識コード編集 (VACE) という 2 つの専用の評価タスクを設計します。
LLM のパフォーマンスをベンチマークするために包括的な実験が行われ、これらのタスクと VersiCode の困難な性質、つまり、最先端の LLM ですら正しいバージョンのコードを生成するのに苦労していることが明らかになりました。
このデータセットは、提案されたタスクとともに、バージョン固有のコード生成を処理する際の LLM の機能と限界を明らかにし、さらなる調査のための重要な新しい研究分野を切り開きます。
リソースは https://github.com/wutong8023/VersiCode にあります。
要約(オリジナル)
Significant research has focused on improving the performance of large language model on code-related tasks due to their practical importance. Although performance is typically evaluated using public benchmark datasets, the existing datasets do not account for the concept of \emph{version}, which is crucial in professional software development. In this paper, we introduce VersiCode, the first comprehensive dataset designed to assess the ability of large language models to generate verifiable code for specific library versions. VersiCode encompasses 300 libraries across more than 2,000 versions spanning 9 years. We design two dedicated evaluation tasks: version-specific code completion (VSCC) and version-aware code editing (VACE). Comprehensive experiments are conducted to benchmark the performance of LLMs, revealing the challenging nature of these tasks and VersiCode, that even state-of-the-art LLMs struggle to generate version-correct code. This dataset, together with the proposed tasks, sheds light on LLMs’ capabilities and limitations in handling version-specific code generation, and opens up an important new area of research for further investigation. The resources can be found at https://github.com/wutong8023/VersiCode.
arxiv情報
著者 | Tongtong Wu,Weigang Wu,Xingyu Wang,Kang Xu,Suyu Ma,Bo Jiang,Ping Yang,Zhenchang Xing,Yuan-Fang Li,Gholamreza Haffari |
発行日 | 2024-06-11 16:15:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google