要約
大規模言語モデル (LLM) を使用した人間の記述からのコード生成の人気が高まっていることを動機として、既存および新興モデルの機能を評価するためにいくつかのベンチマークが提案されています。
この研究では、Python コード生成に広く使用されている 2 つのベンチマークである HumanEval と MBPP について、その多様性と難易度に焦点を当てた大規模な人による評価を示します。
私たちの調査結果では、限られた数のプログラミング概念に大きな偏りがあり、ほとんどの概念は無視できるかまったく表現されていないことが明らかになりました。
さらに、簡単なプログラミングに関する質問の割合が驚くほど高いことが判明し、コード生成タスクにおけるモデルのパフォーマンスの過大評価につながる可能性があります。
要約(オリジナル)
Motivated by the increasing popularity of code generation from human descriptions using large language models (LLMs), several benchmarks have been proposed to assess the capabilities of existing and emerging models. This study presents a large-scale human evaluation of HumanEval and MBPP, two widely used benchmarks for Python code generation, focusing on their diversity and difficulty. Our findings reveal a significant bias towards a limited number of programming concepts, with negligible or no representation of most concepts. Additionally, we identify a concerningly high proportion of easy programming questions, potentially leading to an overestimation of model performance on code generation tasks.
arxiv情報
著者 | Ankit Yadav,Mayank Singh |
発行日 | 2024-01-08 12:36:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google