要約
コード用大規模言語モデル (Code LLM) が盛んです。
新しい強力なモデルが毎週リリースされ、コード生成タスクで顕著なパフォーマンスを示します。
事前トレーニングされたコード LLM のコード生成パフォーマンスを向上させるために、教師あり微調整、命令チューニング、強化学習などのさまざまなアプローチが提案されています。この論文では、新しい RRTF (テストと教師のフィードバックを調整するためのランク応答) を提案します。
コード生成用に事前トレーニングされた大規模言語モデルを効果的かつ効率的に強化できるフレームワークです。
このフレームワークの下で、OpenAI HumanEval ベンチマークで 62.20% pass@1 を達成する PanGu-Coder2 を紹介します。
さらに、CoderEval および LeetCode ベンチマークの広範な評価を通じて、PanGu-Coder2 が以前のすべての Code LLM よりも一貫して優れていることを示しました。
要約(オリジナル)
Large Language Models for Code (Code LLM) are flourishing. New and powerful models are released on a weekly basis, demonstrating remarkable performance on the code generation task. Various approaches have been proposed to boost the code generation performance of pre-trained Code LLMs, such as supervised fine-tuning, instruction tuning, reinforcement learning, etc. In this paper, we propose a novel RRTF (Rank Responses to align Test&Teacher Feedback) framework, which can effectively and efficiently boost pre-trained large language models for code generation. Under this framework, we present PanGu-Coder2, which achieves 62.20% pass@1 on the OpenAI HumanEval benchmark. Furthermore, through an extensive evaluation on CoderEval and LeetCode benchmarks, we show that PanGu-Coder2 consistently outperforms all previous Code LLMs.
arxiv情報
著者 | Bo Shen,Jiaxin Zhang,Taihong Chen,Daoguang Zan,Bing Geng,An Fu,Muhan Zeng,Ailun Yu,Jichuan Ji,Jingyang Zhao,Yuenan Guo,Qianxiang Wang |
発行日 | 2023-07-27 15:28:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google