CodeBenchGen: Creating Scalable Execution-based Code Generation Benchmarks

要約

さまざまなシナリオにわたるコード生成システムの評価を容易にするために、人間による軽いガイダンスのみを必要とするスケーラブルな実行ベースのベンチマークを作成するフレームワークである CodeBenchGen を紹介します。
具体的には、大規模言語モデル (LLM) を活用して、任意のコード部分を、実行ベースの評価のテスト ケースを含む評価サンプルに変換します。
データセット Exec-CSN を作成することでフレームワークの有用性を説明します。これには、CodeSearchNet データセットから取得した 367 の GitHub リポジトリのコードから改訂された 293 のライブラリを含む 1,931 の例が含まれています。
Exec-CSN の例の複雑さと解決可能性を実証するために、例の 81.3% が人間によって解決可能であり、61% が「解決に努力が必要」と評価されたことを示す人間の研究を紹介します。
私たちは、オープンソースおよび独自のモデルでコード生成実験を実施し、人間とモデルの両方のパフォーマンスを分析します。
コードは https://github.com/Veronicium/CodeBenchGen で提供されています。

要約(オリジナル)

To facilitate evaluation of code generation systems across diverse scenarios, we present CodeBenchGen, a framework to create scalable execution-based benchmarks that only requires light guidance from humans. Specifically, we leverage a large language model (LLM) to convert an arbitrary piece of code into an evaluation example, including test cases for execution-based evaluation. We illustrate the usefulness of our framework by creating a dataset, Exec-CSN, which includes 1,931 examples involving 293 libraries revised from code in 367 GitHub repositories taken from the CodeSearchNet dataset. To demonstrate the complexity and solvability of examples in Exec-CSN, we present a human study demonstrating that 81.3% of the examples can be solved by humans and 61% are rated as ‘requires effort to solve’. We conduct code generation experiments on open-source and proprietary models and analyze the performance of both humans and models. We provide the code at https://github.com/Veronicium/CodeBenchGen.

arxiv情報

著者 Yiqing Xie,Alex Xie,Divyanshu Sheth,Pengfei Liu,Daniel Fried,Carolyn Rose
発行日 2024-04-26 08:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク