要約
コード大規模言語モデル (Code LLM) は、コード関連のタスクにおいて優れたパフォーマンスを実証しました。
事前トレーニングされたコード LLM のコード生成パフォーマンスを向上させるために、いくつかの命令チューニングのアプローチが提案されています。
この論文では、コード生成のための自己評価を備えた多様な命令モデル (DolphCoder) を紹介します。
多様な命令ターゲットを学習し、コード評価目標を組み合わせてコード生成能力を強化します。
私たちのモデルは、HumanEval および MBPP ベンチマークで優れたパフォーマンスを達成し、将来のコード命令チューニング作業に対する新たな洞察を示しています。
私たちの主な発見は次のとおりです: (1) 明確な推論パスを使用してより多様な応答を拡張すると、LLM のコード能力が向上します。
(2) コードの解決策の正しさを評価する能力が向上すると、コードを作成する能力も向上します。
要約(オリジナル)
Code Large Language Models (Code LLMs) have demonstrated outstanding performance in code-related tasks. Several instruction tuning approaches have been proposed to boost the code generation performance of pre-trained Code LLMs. In this paper, we introduce a diverse instruction model (DolphCoder) with self-evaluating for code generation. It learns diverse instruction targets and combines a code evaluation objective to enhance its code generation ability. Our model achieves superior performance on the HumanEval and MBPP benchmarks, demonstrating new insights for future code instruction tuning work. Our key findings are: (1) Augmenting more diverse responses with distinct reasoning paths increases the code capability of LLMs. (2) Improving one’s ability to evaluate the correctness of code solutions also enhances their ability to create it.
arxiv情報
著者 | Yejie Wang,Keqing He,Guanting Dong,Pei Wang,Weihao Zeng,Muxi Diao,Yutao Mou,Mengdi Zhang,Jingang Wang,Xunliang Cai,Weiran Xu |
発行日 | 2024-02-14 12:34:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google