CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X

要約

OpenAI Codex などの大規模な事前トレーニング済みコード生成モデルは、構文および機能が正しいコードを生成できるため、プログラマーのコーディングの生産性が向上し、汎用人工知能の追求がより身近になります。
このホワイト ペーパーでは、コード生成用の 130 億のパラメーターを備えた多言語モデルである CodeGeeX を紹介します。
CodeGeeX は、2022 年 6 月の時点で、23 のプログラミング言語の 8,500 億個のトークンで事前トレーニングされています。当社の広範な実験により、CodeGeeX は、HumanEval-X でのコード生成と翻訳の両方のタスクで、同様の規模の多言語コード モデルよりも優れていることが示唆されています。
HumanEval (Python のみ) に基づいて、C++、Java、JavaScript、および Go でソリューションを手書きすることにより、多言語モデルを評価するための HumanEval-X ベンチマークを開発します。
さらに、Visual Studio Code、JetBrains、および Cloud Studio で CodeGeeX ベースの拡張機能を構築し、1 週間に数万人のアクティブ ユーザーのために 47 億のトークンを生成しています。
私たちのユーザー調査は、CodeGeeX がユーザーの 83.4% のコーディング効率を向上させるのに役立つことを示しています。
最後に、CodeGeeX は公開されており、2022 年 9 月に、そのコード、モデルの重み (850B トークンのバージョン)、API、拡張機能、および HumanEval-X を https://github.com/THUDM/CodeGeeX でオープンソース化しました。

要約(オリジナル)

Large pre-trained code generation models, such as OpenAI Codex, can generate syntax- and function-correct code, making the coding of programmers more productive and our pursuit of artificial general intelligence closer. In this paper, we introduce CodeGeeX, a multilingual model with 13 billion parameters for code generation. CodeGeeX is pre-trained on 850 billion tokens of 23 programming languages as of June 2022. Our extensive experiments suggest that CodeGeeX outperforms multilingual code models of similar scale for both the tasks of code generation and translation on HumanEval-X. Building upon HumanEval (Python only), we develop the HumanEval-X benchmark for evaluating multilingual models by hand-writing the solutions in C++, Java, JavaScript, and Go. In addition, we build CodeGeeX-based extensions on Visual Studio Code, JetBrains, and Cloud Studio, generating 4.7 billion tokens for tens of thousands of active users per week. Our user study demonstrates that CodeGeeX can help to increase coding efficiency for 83.4% of its users. Finally, CodeGeeX is publicly accessible and in Sep. 2022, we open-sourced its code, model weights (the version of 850B tokens), API, extensions, and HumanEval-X at https://github.com/THUDM/CodeGeeX.

arxiv情報

著者 Qinkai Zheng,Xiao Xia,Xu Zou,Yuxiao Dong,Shan Wang,Yufei Xue,Zihan Wang,Lei Shen,Andi Wang,Yang Li,Teng Su,Zhilin Yang,Jie Tang
発行日 2023-03-30 17:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク