PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM

要約

大規模言語モデル (LLM) を使用したコード生成の急増により、これらの LLM の機能を評価する多数のベンチマークが登場しました。
私たちは、Python コード生成の 2 つの一般的なベンチマークである HumanEval と MBPP について大規模な人による評価を実施し、その多様性と難易度を分析しました。
私たちの調査結果は、他の概念のほとんどを完全に無視し、限られた一連のプログラミング概念に対する重大な偏見を明らかにしました。
さらに、簡単なタスクが蔓延しており、モデルのパフォーマンスの見積もりが膨らむ可能性があるという憂慮すべき状況も明らかになりました。
これらの制限に対処するために、私たちは、さまざまな難易度にわたる 38 のプログラミング概念をバランスよく表現した 185 の手作りプロンプトを特徴とする新しいベンチマーク PythonSaga を提案します。

要約(オリジナル)

Driven by the surge in code generation using large language models (LLMs), numerous benchmarks have emerged to evaluate these LLMs capabilities. We conducted a large-scale human evaluation of HumanEval and MBPP, two popular benchmarks for Python code generation, analyzing their diversity and difficulty. Our findings unveil a critical bias towards a limited set of programming concepts, neglecting most of the other concepts entirely. Furthermore, we uncover a worrying prevalence of easy tasks, potentially inflating model performance estimations. To address these limitations, we propose a novel benchmark, PythonSaga, featuring 185 hand-crafted prompts on a balanced representation of 38 programming concepts across diverse difficulty levels.

arxiv情報

著者 Ankit Yadav,Mayank Singh
発行日 2024-04-26 04:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク