要約
さまざまなシナリオにわたるコード生成システムの評価を容易にするために、人間による軽いガイダンスのみを必要とするスケーラブルな実行ベースのベンチマークを作成するフレームワークである CodeBenchGen を紹介します。
具体的には、大規模言語モデル (LLM) を活用して、任意のコード部分を、実行ベースの評価のテスト ケースを含む評価サンプルに変換します。
データセット Exec-CSN を作成することでフレームワークの有用性を説明します。これには、CodeSearchNet データセットから取得した 367 の GitHub リポジトリのコードから改訂された 293 のライブラリを含む 1,931 の例が含まれています。
Exec-CSN の例の複雑さと解決可能性を実証するために、例の 81.3% が人間によって解決可能であり、61% が「解決に努力が必要」と評価されたことを示す人間の研究を紹介します。
私たちはオープンソースおよび独自のモデルでコード生成実験を実施し、人間とモデルの両方のパフォーマンスを分析します。
コードは https://github.com/Veronicium/CodeBenchGen で提供されています。
要約(オリジナル)
To facilitate evaluation of code generation systems across diverse scenarios, we present CodeBenchGen, a framework to create scalable execution-based benchmarks that only requires light guidance from humans. Specifically, we leverage a large language model (LLM) to convert an arbitrary piece of code into an evaluation example, including test cases for execution-based evaluation. We illustrate the usefulness of our framework by creating a dataset, Exec-CSN, which includes 1,931 examples involving 293 libraries revised from code in 367 GitHub repositories taken from the CodeSearchNet dataset. To demonstrate the complexity and solvability of examples in Exec-CSN, we present a human study demonstrating that 81.3% of the examples can be solved by humans and 61% are rated as ‘requires effort to solve’. We conduct code generation experiments on open-source and proprietary models and analyze the performance of both humans and models. We provide the code at https://github.com/Veronicium/CodeBenchGen.
arxiv情報
著者 | Yiqing Xie,Alex Xie,Divyanshu Sheth,Pengfei Liu,Daniel Fried,Carolyn Rose |
発行日 | 2024-05-08 03:14:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google