要約
同じプログラミング言語 (PL) を使用して作業するソフトウェア エンジニアが異なる自然言語 (NL) を話す場合やその逆の場合もあり、コミュニケーションと作業効率に大きな障壁が生じます。
最近の研究では、コンピュータ プログラムにおける生成的事前トレーニングの有効性が実証されていますが、それらは常に英語中心です。
この作業では、大規模言語モデル (LLM) の多言語 NL と多言語 PL の間のギャップを埋めることに取り組みます。
私たちは、116 の NL と 6 つの PL 向けに統合された事前トレーニング済み言語モデルである ERNIE-Code をリリースします。
ユニバーサルなクロスリンガル事前トレーニングには 2 つの方法を採用しています。1 つは単一言語の NL または PL からパターンを学習するスパン破損言語モデリングです。
そして、多くの NL と PL の並列データに依存するピボットベースの翻訳言語モデリングです。
広範な結果は、ERNIE-Code が、多言語のコードからテキストへ、テキストからコードへ、コードからコードへ、およびテキストからテキストへの変換を含む、コード インテリジェンスの幅広い最終タスクにわたって、PL または NL 向けの以前の多言語 LLM よりも優れたパフォーマンスを発揮することを示しています。
-テキストの生成。
さらに、多言語コードの要約とテキスト間の翻訳におけるゼロショット プロンプトの利点を示します。
コードと事前トレーニングされたチェックポイントをリリースします。
要約(オリジナル)
Software engineers working with the same programming language (PL) may speak different natural languages (NLs) and vice versa, erecting huge barriers to communication and working efficiency. Recent studies have demonstrated the effectiveness of generative pre-training in computer programs, yet they are always English-centric. In this work, we step towards bridging the gap between multilingual NLs and multilingual PLs for large language models (LLMs). We release ERNIE-Code, a unified pre-trained language model for 116 NLs and 6 PLs. We employ two methods for universal cross-lingual pre-training: span-corruption language modeling that learns patterns from monolingual NL or PL; and pivot-based translation language modeling that relies on parallel data of many NLs and PLs. Extensive results show that ERNIE-Code outperforms previous multilingual LLMs for PL or NL across a wide range of end tasks of code intelligence, including multilingual code-to-text, text-to-code, code-to-code, and text-to-text generation. We further show its advantage of zero-shot prompting on multilingual code summarization and text-to-text translation. We release our code and pre-trained checkpoints.
arxiv情報
著者 | Yekun Chai,Shuohuan Wang,Chao Pang,Yu Sun,Hao Tian,Hua Wu |
発行日 | 2023-05-19 14:14:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google