The Fault in our Stars: Quality Assessment of Code Generation Benchmarks

要約

大規模言語モデル (LLM) は、ソフトウェア エンジニアの間で人気が高まっています。
効果的なコード生成 LLM を開発する上で重要な点は、堅牢なベンチマークを使用してこれらのモデルを評価することです。
品質に問題がある評価ベンチマークは、パフォーマンスに対して誤った認識を与える可能性があります。
この研究では、さまざまなコード生成モデルのパフォーマンスを比較するために使用されるベンチマーク内のプロンプトの品質について、この種では初めての調査を実施します。
この調査を実施するために、9 つのコード生成ベンチマークからの 3,566 個のプロンプトを分析し、品質上の問題を特定しました。
また、ベンチマークのプロンプトで特定された品質問題を修正することがモデルのパフォーマンスに影響するかどうかも調査しました。
また、ベンチマークの信頼性に疑問を投げかける可能性がある、評価データセットの記憶の問題についても調査しました。
コード生成の評価ベンチマークは主に Python とコーディング演習に焦点を当てており、モデルに挑戦するためのコンテキスト依存関係が非常に限定されていることがわかりました。
これらのデータセットと開発者のプロンプトには、スペルや文法の間違い、開発者の意図を表現するための不明瞭な文章、適切なドキュメント スタイルの使用などの品質の問題があります。
ベンチマークでこれらすべての問題を修正すると、Python コード生成のパフォーマンスが向上する可能性がありますが、Java コード生成では大幅な改善は観察されませんでした。
また、GPT-3.5-Turbo および CodeGen-2.5 モデルにデータ汚染の問題がある可能性があるという証拠も見つかりました。

要約(オリジナル)

Large Language Models (LLMs) are gaining popularity among software engineers. A crucial aspect of developing effective code generation LLMs is to evaluate these models using a robust benchmark. Evaluation benchmarks with quality issues can provide a false sense of performance. In this work, we conduct the first-of-its-kind study of the quality of prompts within benchmarks used to compare the performance of different code generation models. To conduct this study, we analyzed 3,566 prompts from 9 code generation benchmarks to identify quality issues in them. We also investigated whether fixing the identified quality issues in the benchmarks’ prompts affects a model’s performance. We also studied memorization issues of the evaluation dataset, which can put into question a benchmark’s trustworthiness. We found that code generation evaluation benchmarks mainly focused on Python and coding exercises and had very limited contextual dependencies to challenge the model. These datasets and the developers’ prompts suffer from quality issues like spelling and grammatical errors, unclear sentences to express developers’ intent, and not using proper documentation style. Fixing all these issues in the benchmarks can lead to a better performance for Python code generation, but not a significant improvement was observed for Java code generation. We also found evidence that GPT-3.5-Turbo and CodeGen-2.5 models may have data contamination issues.

arxiv情報

著者 Mohammed Latif Siddiq,Simantika Dristi,Joy Saha,Joanna C. S. Santos
発行日 2024-08-28 14:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク