CodeGen2: Lessons for Training LLMs on Programming and Natural Languages

要約

タイトル:CodeGen2 – プログラミングと自然言語の学習におけるLLMsトレーニングの教訓
要約:
– 大規模言語モデル(LLMs)は、プログラムの合成や理解タスクにおける表現学習において傑出した能力を示しました。学習された表現の質は、モデルパラメータの数と観測量の関数としてのニューラルスケーリングの法則によって決定されるようですが、利用可能なデータとコンピュートの量によってモデルの性能に上限を課すことが必要であり、これはコストがかかるものです。
– この研究では、プログラム合成のためのLLMsのトレーニングを、以下の4つの要素を統一することでより効率的に行おうと試みています:(1) モデルアーキテクチャ、(2) 学習方法、(3) インフィルサンプリング、および(4) データ分布。具体的には、モデルアーキテクチャではエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統合しようとしています。学習方法に関しては、(i) 因果言語モデリング、(ii) スパンコーラプション、(iii) インフィリングを、単純な学習アルゴリズムに統合しようとしています。インフィルサンプリングに関しては、フリーランチ仮説を探求しています。データ分布に関しては、プログラミング言語と自然言語の混合分布がモデルの性能に与える影響を探求しています。
– 1B LLMsについて包括的な一連の実験を実施し、この探究の成功と失敗をまとめて4つのレッスンに熟知しました。1B、3.7B、7B、および16BのパラメータサイズのCodeGen2モデルのトレーニングに必要なフレームワークとして、オープンソースのリリースとトレーニングのための最終レシピを提供します:https://github.com/salesforce/CodeGen2.

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable abilities in representation learning for program synthesis and understanding tasks. The quality of the learned representations appears to be dictated by the neural scaling laws as a function of the number of model parameters and observations, while imposing upper bounds on the model performance by the amount of available data and compute, which is costly. In this study, we attempt to render the training of LLMs for program synthesis more efficient by unifying four key components: (1) model architectures, (2) learning methods, (3) infill sampling, and, (4) data distributions. Specifically, for the model architecture, we attempt to unify encoder and decoder-based models into a single prefix-LM. For learning methods, (i) causal language modeling, (ii) span corruption, (iii) infilling are unified into a simple learning algorithm. For infill sampling, we explore the claim of a ‘free lunch’ hypothesis. For data distributions, the effect of a mixture distribution of programming and natural languages on model performance is explored. We conduct a comprehensive series of empirical experiments on 1B LLMs, for which failures and successes of this exploration are distilled into four lessons. We will provide a final recipe for training and release CodeGen2 models in size 1B, 3.7B, 7B, and, 16B parameters, along with the training framework as open-source: https://github.com/salesforce/CodeGen2.

arxiv情報

著者 Erik Nijkamp,Hiroaki Hayashi,Caiming Xiong,Silvio Savarese,Yingbo Zhou
発行日 2023-05-03 17:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク