OOP: Object-Oriented Programming Evaluation Benchmark for Large Language Models

要約

自動プログラミングの進歩には、堅牢で包括的なコード生成ベンチマークが必要ですが、現在の評価フレームワークでは、HumanEval や MBPP などの関数型プログラミング (FP) が優先され、オブジェクト指向プログラミング (OOP) がほとんど無視されています。
これに対処するために、私たちの調査では、OOP に重点を置いた先駆的なベンチマークを導入しています。このベンチマークには、クラスやカプセル化方法などの重要な OOP 概念と機能を網羅する 431 の Python プログラムが含まれています。
私たちは、OOP 向けに調整された新しい評価指標 pass@o を提案し、従来の pass@k 尺度を強化します。
一般的なモデルとコードに特化したモデルの両方を含む 23 の主要な大規模言語モデル (LLM) を評価したところ、次の 3 つの重要な洞察が明らかになりました。1) pass@o は、OOP コード生成のためのより適切で包括的な評価を提供します。
2) FP では優れているにもかかわらず、WizardCoder のようなコードに特化した LLM は、ChatGPT のようなモデルと比較して OOP で遅れをとっています。
3) OOP ベンチマークにおけるすべての高度な LLM のパフォーマンスの低さは、この分野での改善の重要な必要性を浮き彫りにしています。
私たちのベンチマークとスクリプトは、https://github.com/alphadl/OOP-eval で公開されています。

要約(オリジナル)

Advancing automated programming necessitates robust and comprehensive code generation benchmarks, yet current evaluation frameworks largely neglect object-oriented programming (OOP) in favor of functional programming (FP), e.g., HumanEval and MBPP. To address this, our study introduces a pioneering OOP-focused benchmark, featuring 431 Python programs that encompass essential OOP concepts and features like classes and encapsulation methods. We propose a novel evaluation metric, pass@o, tailored for OOP, enhancing traditional pass@k measures. Our evaluation of 23 leading large language models (LLMs), including both general and code-specialized models, reveals three key insights: 1) pass@o offers a more relevant and comprehensive assessment for OOP code generation; 2) Despite excelling in FP, code-specialized LLMs like WizardCoder lag in OOP compared to models like ChatGPT; 3) The poor performance of all advanced LLMs on our OOP benchmark highlights a critical need for improvements in this field. Our benchmark and scripts are publicly released at: https://github.com/alphadl/OOP-eval.

arxiv情報

著者 Shuai Wang,Liang Ding,Li Shen,Yong Luo,Bo Du,Dacheng Tao
発行日 2024-01-12 15:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク