A Performance Study of LLM-Generated Code on Leetcode

要約

この研究では、Large Language Model (LLM) によるコード生成の効率を評価し、Leetcode のデータセットを使用して人間が作成したソリューションに対するパフォーマンスを測定します。
モデルの温度や成功率、コードのパフォーマンスへの影響などの要素を考慮して、18 個の LLM を比較します。
この研究では、LLM で生成されたコードの速度を測定および比較する新しい方法を導入し、採用された LLM に関係なく、LLM が同等のパフォーマンスのコードを生成することを明らかにしました。
また、LLM は人間が作成したコードよりも平均して効率的なコードを生成できることもわかりました。
この論文ではさらに、ベンチマーク データセットとしての Leetcode の使用、潜在的なデータ汚染によって課される制限、およびプラットフォームの測定の信頼性について説明します。
私たちは、私たちの調査結果がコード生成における LLM 機能のより良い理解に貢献し、この分野での将来の最適化のための準備を整えたと信じています。

要約(オリジナル)

This study evaluates the efficiency of code generation by Large Language Models (LLMs) and measures their performance against human-crafted solutions using a dataset from Leetcode. We compare 18 LLMs, considering factors such as model temperature and success rate, and their impact on code performance. This research introduces a novel method for measuring and comparing the speed of LLM-generated code, revealing that LLMs produce code with comparable performance, irrespective of the adopted LLM. We also find that LLMs are capable of generating code that is, on average, more efficient than the code written by humans. The paper further discusses the use of Leetcode as a benchmarking dataset, the limitations imposed by potential data contamination, and the platform’s measurement reliability. We believe that our findings contribute to a better understanding of LLM capabilities in code generation and set the stage for future optimizations in the field.

arxiv情報

著者 Tristan Coignion,Clément Quinton,Romain Rouvoy
発行日 2024-07-31 13:10:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク