Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and Shortcomings in Code Generation Evaluation

要約

大規模言語モデル (LLM) を使用した人間の記述からのコード生成の人気が高まっていることを動機として、既存および新興モデルの機能を評価するためにいくつかのベンチマークが提案されています。
この研究では、Python コード生成に広く使用されている 2 つのベンチマークである HumanEval と MBPP について、その多様性と難易度に焦点を当てた大規模な人による評価を示します。
私たちの調査結果では、限られた数のプログラミング概念に大きな偏りがあり、ほとんどの概念は無視できるかまったく表現されていないことが明らかになりました。
さらに、簡単なプログラミングに関する質問の割合が驚くほど高いことが判明し、コード生成タスクにおけるモデルのパフォーマンスの過大評価につながる可能性があります。

要約(オリジナル)

Motivated by the increasing popularity of code generation from human descriptions using large language models (LLMs), several benchmarks have been proposed to assess the capabilities of existing and emerging models. This study presents a large-scale human evaluation of HumanEval and MBPP, two widely used benchmarks for Python code generation, focusing on their diversity and difficulty. Our findings reveal a significant bias towards a limited number of programming concepts, with negligible or no representation of most concepts. Additionally, we identify a concerningly high proportion of easy programming questions, potentially leading to an overestimation of model performance on code generation tasks.

arxiv情報

著者 Ankit Yadav,Mayank Singh
発行日 2024-01-08 12:36:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク