CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding?

要約

大規模言語モデル (LLM) の最近の進歩により、主に言語対コードのベンチマークを通じて評価される、優れたコード生成機能が実証されました。
ただし、これらのベンチマークは、モデルのコード理解能力を完全には把握していない可能性があります。
コード生成ではなくコード判定の観点から LLM のコード理解能力を評価するように設計された新しいベンチマークである CodeJudge-Eval (CJ-Eval) を紹介します。
CJ-Eval は、さまざまなエラー タイプやコンパイルの問題を含め、提供されたコード ソリューションの正確性を判断するようモデルに要求します。
CJ-Eval は、多様な問題セットときめ細かい判定システムを活用することで、解決策の暗記の可能性など、従来のベンチマークの限界に対処します。
CJ-Eval で 12 のよく知られた LLM を評価すると、最先端のモデルでも苦戦していることが明らかになり、モデルのコード理解能力をより深く調査するベンチマークの能力が強調されています。
コードとベンチマークは \url{https://github.com/CodeLLM-Research/CodeJudge-Eval} で入手できます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have showcased impressive code generation capabilities, primarily evaluated through language-to-code benchmarks. However, these benchmarks may not fully capture a model’s code understanding abilities. We introduce CodeJudge-Eval (CJ-Eval), a novel benchmark designed to assess LLMs’ code understanding abilities from the perspective of code judging rather than code generation. CJ-Eval challenges models to determine the correctness of provided code solutions, encompassing various error types and compilation issues. By leveraging a diverse set of problems and a fine-grained judging system, CJ-Eval addresses the limitations of traditional benchmarks, including the potential memorization of solutions. Evaluation of 12 well-known LLMs on CJ-Eval reveals that even state-of-the-art models struggle, highlighting the benchmark’s ability to probe deeper into models’ code understanding abilities. Our codes and benchmark are available at \url{https://github.com/CodeLLM-Research/CodeJudge-Eval}.

arxiv情報

著者 Yuwei Zhao,Ziyang Luo,Yuchen Tian,Hongzhan Lin,Weixiang Yan,Annan Li,Jing Ma
発行日 2024-09-13 08:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク