要約
大規模言語モデル (LLM) の最近の進歩により、コード生成、特に関数レベルでのコード生成が大幅に改善されました。
たとえば、GPT-4o は HumanEval で 91.0% の合格率を達成しています。
ただし、これにより、関数レベルのコード生成機能を徹底的に評価する際の既存のベンチマークの適切性に疑問が生じます。
私たちの研究では、HumanEval と MBPP という 2 つの一般的なベンチマークを分析したところ、品質、難易度、粒度の制限により、これらは LLM のコード生成能力を完全に評価していない可能性があることがわかりました。
これを解決するために、人が厳選した 210 個の固有の問題で構成される Mostly Hard Python 問題 (MHPP) データセットを導入します。
MHPP は、自然言語とコード推論の組み合わせに焦点を当てることで、仕様と制限を理解し、複数ステップの推論に取り組み、コーディングの知識を効果的に適用する LLM の能力を評価します。
MHPP を使用した 26 個の LLM の初期評価では、HumanEval 上の多くの高性能モデルが MHPP では同様の成功を達成できないことがわかりました。
さらに、MHPP は、さまざまな LLM 内のこれまで発見されていなかったさまざまな制限を強調しており、これにより、LLM の機能と制限をより深く理解するための道が開かれる可能性があると考えられます。
MHPP、評価パイプライン、リーダーボードは https://github.com/SparksofAGI/MHPP でご覧いただけます。
要約(オリジナル)
Recent advancements in large language models (LLMs) have greatly improved code generation, specifically at the function level. For instance, GPT-4o has achieved a 91.0\% pass rate on HumanEval. However, this draws into question the adequacy of existing benchmarks in thoroughly assessing function-level code generation capabilities. Our study analyzed two common benchmarks, HumanEval and MBPP, and found that these might not thoroughly evaluate LLMs’ code generation capacities due to limitations in quality, difficulty, and granularity. To resolve this, we introduce the Mostly Hard Python Problems (MHPP) dataset, consisting of 210 unique human-curated problems. By focusing on the combination of natural language and code reasoning, MHPP gauges LLMs’ abilities to comprehend specifications and restrictions, engage in multi-step reasoning, and apply coding knowledge effectively. Initial evaluations of 26 LLMs using MHPP showed many high-performing models on HumanEval failed to achieve similar success on MHPP. Moreover, MHPP highlighted various previously undiscovered limitations within various LLMs, leading us to believe that it could pave the way for a better understanding of LLMs’ capabilities and limitations. MHPP, evaluation pipeline, and leaderboard can be found in https://github.com/SparksofAGI/MHPP.
arxiv情報
著者 | Jianbo Dai,Jianqiao Lu,Yunlong Feng,Dong Huang,Guangtao Zeng,Rongju Ruan,Ming Cheng,Haochen Tan,Zhijiang Guo |
発行日 | 2024-11-04 12:21:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google