The Program Testing Ability of Large Language Models for Code

要約

CodeX や CodeT5+ などのコード用の大規模言語モデル (LLM) の最近の開発は、コード インテリジェンスの実現において大きな可能性を示しています。
事前定義されたタスクを実行するプログラムを完成させるコードを合成する能力は、HumanEval や MBPP などのベンチマーク データセットで集中的にテストおよび検証されています。
しかし、ソフトウェアエンジニアリングにおける LLM の応用範囲の広さを考慮すると、(プログラム合成だけでなく) より多くの観点からこれらの LLM を評価することも期待されています。
このペーパーでは、プログラム/コードをテストするための LLM の機能を検討します。
プログラム テストにおけるコードの最近の LLM の徹底的な分析を実行することにより、これらのモデルの一連の興味深い特性を示し、LLM のプログラム テスト能力がどのように向上するかを実証します。
生成されたテスト ケースを利用してプログラム合成を強化する最近の研究に続き、その結果を合成プログラムの品質向上にさらに活用し、GPT-3.5-turbo ベースラインと比較して、HumanEval+ で +11.77% および +4.22% 高いコード合格率を示しました。
と最近の最先端技術をそれぞれ紹介します。

要約(オリジナル)

Recent development of large language models (LLMs) for code like CodeX and CodeT5+ demonstrates tremendous promise in achieving code intelligence. Their ability of synthesizing code that completes a program for performing a pre-defined task has been intensively tested and verified on benchmark datasets including HumanEval and MBPP. Yet, evaluation of these LLMs from more perspectives (than just program synthesis) is also anticipated, considering their broad scope of applications in software engineering. In this paper, we explore the ability of LLMs for testing programs/code. By performing thorough analyses of recent LLMs for code in program testing, we show a series of intriguing properties of these models and demonstrate how program testing ability of LLMs can be improved. Following recent work which utilizes generated test cases to enhance program synthesis, we further leverage our findings in improving the quality of the synthesized programs and show +11.77% and +4.22% higher code pass rates on HumanEval+ comparing with the GPT-3.5-turbo baseline and the recent state-of-the-art, respectively.

arxiv情報

著者 Weimin Xiong,Yiwen Guo,Hao Chen
発行日 2023-10-09 13:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE パーマリンク