要約
開発者が一般的なタスクを支援することを目的として、コード生成用に調整された新しいデータセットを紹介します。
私たちのデータセットは、明確化された意図、関連するコード スニペット、および関連する 3 つの単体テストの平均を含む例を提供します。
これには、\texttt{Pandas}、\texttt{Numpy}、\texttt{Regex} などのさまざまなライブラリと、Stack Overflow から派生した Python コードの 70 以上の標準ライブラリが含まれています。
Python の専門家によって作成された 3,409 個のサンプルで構成される私たちのデータセットは、モデルの微調整とスタンドアロン評価の両方のために設計されています。
単体テストの評価を完了するには、より詳細な分析を行うために例を分類し、特定のコーディング タスクにおけるモデルの長所と短所の理解を強化します。
サンプルはデータ汚染を減らすために改良されており、このプロセスは 3 つの主要なモデル、Mistral 7B、CodeLLaMa 13B、Starcoder 15B のパフォーマンスによって確認されています。
さらに、データセットの一部に対する GPT-4 パフォーマンスのデータ汚染テストを調査します。
ベンチマークには \url{https://github.com/NathanaelBeau/CodeInsight} からアクセスできます。
要約(オリジナル)
We introduce a novel dataset tailored for code generation, aimed at aiding developers in common tasks. Our dataset provides examples that include a clarified intent, code snippets associated, and an average of three related unit tests. It encompasses a range of libraries such as \texttt{Pandas}, \texttt{Numpy}, and \texttt{Regex}, along with more than 70 standard libraries in Python code derived from Stack Overflow. Comprising 3,409 crafted examples by Python experts, our dataset is designed for both model finetuning and standalone evaluation. To complete unit tests evaluation, we categorize examples in order to get more fine grained analysis, enhancing the understanding of models’ strengths and weaknesses in specific coding tasks. The examples have been refined to reduce data contamination, a process confirmed by the performance of three leading models: Mistral 7B, CodeLLaMa 13B, and Starcoder 15B. We further investigate data-contamination testing GPT-4 performance on a part of our dataset. The benchmark can be accessed at \url{https://github.com/NathanaelBeau/CodeInsight}.
arxiv情報
著者 | Nathanaël Beau,Benoît Crabbé |
発行日 | 2024-09-25 11:18:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google