Out of the BLEU: how should we assess quality of the Code Generation models?

要約

タイトル:BLEU評価を超えて:コード生成モデルの評価方法はどうあるべきか?

要約:
– 最近、多数のコード生成モデルが作成されて導入されてきました。
– しかし、人間の評価は不可能なため、BLEUなどの自動評価メトリックが採用されました。
– BLEUは、機械翻訳のドメインから派生したメトリックであり、コード生成タスクに適用可能かどうか、このタスクの人間の評価とどの程度一致するかは明確ではありません。
– CodeBLEUやRUBYなど、ソースコードの特性を考慮して類似性を評価する他のメトリックもありますが、これらのメトリックと人間の評価の一致に関する研究はほとんどありません。
– それでも、最近の論文ではメトリックスコアのわずかな違いが使用され、一部のコード生成モデルが他のモデルよりも優れていると主張されました。
– この論文では、6つのメトリック(BLEU、ROUGE-L、METEOR、ChrF、CodeBLEU、RUBY)のコード生成モデルの評価に関する研究を紹介しています。
– 2つの異なるデータセットで実験を行い、人間の評価を基準に、すべてのモデルの品質を評価しました。
– 結果は、Pythonの1行コードデータセットであるCoNaLaでは、モデルスコアの差が5ポイント以下の場合、メトリックが何れも人間の判断を正確に模倣できないことを示しています。
– 一方、特定の構造を持つクラスから成るHearthStoneデータセットでは、モデルスコアの差が2ポイント以上ある場合、モデル間の優越を主張することができます。
– この研究の結果、ChrFメトリックがBLEUやCodeBLEUよりもコード生成モデルの評価に適していることが示唆されていますが、人間との一致に関するメトリックを見つけるには、さらなる研究が必要です。

要約(オリジナル)

In recent years, researchers have created and introduced a significant number of various code generation models. As human evaluation of every new model version is unfeasible, the community adopted automatic evaluation metrics such as BLEU to approximate the results of human judgement. These metrics originate from the machine translation domain and it is unclear whether they are applicable for the code generation tasks and how well they agree with the human evaluation on this task. There are also other metrics, CodeBLEU and RUBY, developed to estimate the similarity of code, that take into account the properties of source code. However, for these metrics there are hardly any studies on their agreement with the human evaluation. Despite all that, minimal differences in the metric scores have been used in recent papers to claim superiority of some code generation models over the others. In this paper, we present a study on the applicability of six metrics — BLEU, ROUGE-L, METEOR, ChrF, CodeBLEU, and RUBY — for evaluation of code generation models. We conduct a study on two different code generation datasets and use human annotators to assess the quality of all models run on these datasets. The results indicate that for the CoNaLa dataset of Python one-liners, none of the metrics can correctly emulate human judgement on which model is better with >95% certainty if the difference in model scores is less than 5 points. For the HearthStone dataset, which consists of classes of a particular structure, a difference in model scores of at least 2 points is enough to claim the superiority of one model over the other. Our findings suggest that the ChrF metric is a better fit for the evaluation of code generation models than the commonly used BLEU and CodeBLEU. Yet, finding a metric for code generation that closely agrees with humans requires additional work.

arxiv情報

著者 Mikhail Evtikhiev,Egor Bogomolov,Yaroslav Sokolov,Timofey Bryksin
発行日 2023-05-10 11:14:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SE パーマリンク