Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review

要約

大規模言語モデル (LLM) の急速な発展に伴い、自然言語入力からのプログラム コードの生成などのプログラミング タスクを支援するために、多数の機械学習モデルが開発されています。
ただし、このような LLM を評価および比較するために多大な研究努力が行われ、報告されているにもかかわらず、このタスクで LLM を評価する方法は依然として未解決の問題です。
このペーパーでは、評価で使用されるベンチマークと指標という 2 つの重要な側面に焦点を当てて、これらのツールのテストと評価に関する既存の作業を批判的にレビューします。
レビューに基づいて、さらなる研究の方向性が議論されます。

要約(オリジナル)

With the rapid development of Large Language Models (LLMs), a large number of machine learning models have been developed to assist programming tasks including the generation of program code from natural language input. However, how to evaluate such LLMs for this task is still an open problem despite of the great amount of research efforts that have been made and reported to evaluate and compare them. This paper provides a critical review of the existing work on the testing and evaluation of these tools with a focus on two key aspects: the benchmarks and the metrics used in the evaluations. Based on the review, further research directions are discussed.

arxiv情報

著者 Debalina Ghosh Paul,Hong Zhu,Ian Bayley
発行日 2024-06-18 14:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク