Mercury: An Efficiency Benchmark for LLM Code Synthesis

要約

コード合成のための大規模言語モデル (LLM) の評価が進歩しているにもかかわらず、ベンチマークは主に機能の正確さに焦点を当てており、コード効率の重要性が見落とされています。
LLM コード合成タスクのコード効率を評価するために指定された最初のベンチマークである Mercury を紹介します。
Mercury は、さまざまな難易度をカバーする 1,889 のプログラミング タスクと、包括的な評価のために無制限のケースを生成するテスト ケース ジェネレーターで構成されています。
既存のベンチマークとは異なり、Mercury は、過去の提出に基づいて正規化されたコード効率を測定する新しいメトリクス Beyond@K を統合し、コード合成の新しい評価指標につながります。これにより、実際のソフトウェア開発標準を反映した、機能的に正しく、計算効率の高いコードの生成が促進されます。

私たちの調査結果は、LLM が機能的に正しいコードを生成する顕著な能力を実証している一方で、その効率出力には依然として大きなギャップが存在することを明らかにし、LLM 研究開発の新たなフロンティアを浮き彫りにしています。

要約(オリジナル)

Despite advancements in evaluating Large Language Models (LLMs) for code synthesis, benchmarks have predominantly focused on functional correctness, overlooking the importance of code efficiency. We present Mercury, the first benchmark designated for assessing the code efficiency of LLM code synthesis tasks. Mercury consists of 1,889 programming tasks covering diverse difficulty levels alongside test case generators generating unlimited cases for comprehensive evaluation. Unlike existing benchmarks, Mercury integrates a novel metric Beyond@K to measure normalized code efficiency based on historical submissions, leading to a new evaluation indicator for code synthesis, which encourages generating functionally correct and computationally efficient code, mirroring the real-world software development standard. Our findings reveal that while LLMs demonstrate the remarkable capability to generate functionally correct code, there still exists a substantial gap in their efficiency output, underscoring a new frontier for LLM research and development.

arxiv情報

著者 Mingzhe Du,Anh Tuan Luu,Bin Ji,See-Kiong Ng
発行日 2024-02-12 17:53:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク