要約
自然言語生成の分野における最近の進歩により、生成されたテキストの品質を評価するための大規模な言語モデルの使用が容易になりました。
これらのモデルは、機械翻訳や要約などのタスクでは有望な結果を示していますが、人間の関与がなければ、コード インテリジェンス タスクへの適用は依然として限られています。
このようなタスクに必要なプログラミング概念は複雑であるため、人間の判断と一致する評価指標を開発することが困難になります。
BLEU などのトークン マッチング ベースのメトリクスは、コード インテリジェンス タスクにおける人間の実務者との相関が弱いことが実証されています。
さらに、人間が作成したテスト スイートを利用して機能の正しさを評価することは、リソースが少ないドメインでは困難になる可能性があります。
これらの障害を克服するために、コード評価のための大規模言語モデル (LLM) を指示することによる新しい評価指標である \texttt{ICE-Score} を提案します。
私たちのメトリクスは、テストオラクルや参照を必要とせずに、機能の正しさと人間の好みとの優れた相関関係を達成することで、既存のアプローチの限界に対処します。
私たちは 2 つの異なる側面 (\textit{人間の好み} と \textit{実行の成功}) および 4 つのプログラミング言語でメトリクスの有効性を評価します。
私たちの結果は、私たちのメトリクスがコード生成の最先端のメトリクスを上回り、さまざまなプログラミング言語やタスクにわたって高レベルの精度と一貫性を実現していることを示しています。
また、評価メトリクスとデータセットを\footnote{\url{https://github.com/terryyz/ice-score}}で公開し、コード インテリジェンス タスクの評価におけるさらなる研究を奨励しています。
要約(オリジナル)
Recent advancements in the field of natural language generation have facilitated the use of large language models to assess the quality of generated text. Although these models have shown promising results in tasks such as machine translation and summarization, their applicability in code intelligence tasks remains limited without human involvement. The complexity of programming concepts required for such tasks makes it difficult to develop evaluation metrics that align with human judgment. Token-matching-based metrics, such as BLEU, have demonstrated weak correlations with human practitioners in code intelligence tasks. Moreover, utilizing human-written test suites to evaluate functional correctness can be challenging in domains with low resources. To overcome these obstacles, we propose \texttt{ICE-Score}, a new evaluation metric via instructing large language models (LLMs) for code assessments. Our metric addresses the limitations of existing approaches by achieving superior correlations with functional correctness and human preferences, without the need for test oracles or references. We evaluate the efficacy of our metric on two different aspects (\textit{human preference} and \textit{execution success}) and four programming languages. Our results demonstrate that our metric surpasses state-of-the-art metrics for code generation, delivering high levels of accuracy and consistency across various programming languages and tasks. We also make our evaluation metric and datasets available to the public\footnote{\url{https://github.com/terryyz/ice-score}}, encouraging further research in evaluating code intelligence tasks.
arxiv情報
著者 | Terry Yue Zhuo |
発行日 | 2024-01-22 17:06:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google