NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional Correctness

要約

コードの言語モデル (コード LM) の既存の評価ベンチマークは、LM が機能的に正しいコードを生成できるかどうかにほぼ重点を置いています。
現実のソフトウェア エンジニアリングでは、開発者は機能の正確性を超えて考えます。
効率、セキュリティ、保守性などの全体的なシステム設計目標を満たすために、機能を「どのように」実装する必要があるかについての要件があります。
また、LM が要件とコードのセマンティクスについてしっかりと理解を示している場合、コード LM をより信頼するでしょう。
非機能要件に関するコード LM と、機能要件と非機能要件の両方の単純な分類インスタンスを評価するための新しいベンチマーク NoFunEval を提案します。
開発者がドメインの知識を LM に伝達する方法として、プロンプト手法であるコーディング コンセプト (CoCo) を提案します。
私たちは 22 個のコード LM の広範な評価を実施します。
私たちの調査結果では、ベンチマークでテストした場合、一般的にパフォーマンスが低下することがわかっており、これはトレーニング設定に根本的な盲点があることを示唆しています。
驚くべきことに、人気のある HumanEval ベンチマークから派生した機能的正確性インスタンスの分類精度さえも低く、理解の深さと、そもそも機能的に正しいコードを生成する成功の源に疑問が生じています。
ベンチマークと評価スクリプトは https://aka.ms/NoFunEval で公開します。

要約(オリジナル)

Existing evaluation benchmarks of language models of code (code LMs) focus almost exclusively on whether the LMs can generate functionally-correct code. In real-world software engineering, developers think beyond functional correctness. They have requirements on ‘how’ a functionality should be implemented to meet overall system design objectives like efficiency, security, and maintainability. They would also trust the code LMs more if the LMs demonstrate robust understanding of requirements and code semantics. We propose a new benchmark NoFunEval to evaluate code LMs on non-functional requirements and simple classification instances for both functional and non-functional requirements. We propose a prompting method, Coding Concepts (CoCo), as a way for a developer to communicate the domain knowledge to the LMs. We conduct an extensive evaluation of twenty-two code LMs. Our finding is that they generally falter when tested on our benchmark, hinting at fundamental blindspots in their training setups. Surprisingly, even the classification accuracy on functional-correctness instances derived from the popular HumanEval benchmark is low, calling in question the depth of their comprehension and the source of their success in generating functionally-correct code in the first place. We will release our benchmark and evaluation scripts publicly at https://aka.ms/NoFunEval.

arxiv情報

著者 Manav Singhal,Tushar Aggarwal,Abhijeet Awasthi,Nagarajan Natarajan,Aditya Kanade
発行日 2024-01-29 08:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE パーマリンク