‘Medium’ LMs of Code in the Era of LLMs: Lessons From StackOverflow

要約

大規模な事前トレーニング済みニューラル言語モデルは、NLP とソフトウェア エンジニアリングの両方に計り知れない進歩をもたらしました。
OpenAI の GPT シリーズのモデルは、以前はさまざまな NLP アプリケーションで新しいベンチマークを設定していた Google の BERT や Meta の RoBERTa よりも小さくなりました。
これらのモデルは、Web クロールからの異種データの大規模なコーパスでトレーニングされ、一般的な言語パターンと意味関係を学習できるようになります。
ただし、最大規模のモデルはトレーニングとデプロイに費用がかかり、クローズドソースであることが多いため、そのデータや設計上の決定にアクセスすることができません。
私たちは、大規模な汎用モデルへの傾向を、単一目的のより控えめなサイズの事前トレーニング済みモデルで補完する必要があると主張します。
この作業では、大量の豊富な整列コードとテキスト データが利用可能なドメインの例として StackOverflow (SO) を取り上げます。
私たちは、強力なツールキット (Megatron-LM) と組み合わせた、非常に大きなコンテキスト サイズ (2,048 トークン)、バッチ サイズ (0.500 万トークン)、トレーニング セット (270 億トークン) の使用など、大規模な言語モデルを事前トレーニングするための標準的な手法を採用しています。
2 つのモデル: 1 億 900 万のパラメータを持つ SOBertBase と 7 億 6,200 万のパラメータを持つ SOBertLarge を、それぞれ $\$187$ と $\$800$ の予算でトレーニングします。
私たちのモデルのパフォーマンスを、SO データのみでトレーニングされた以前の SOTA モデル、汎用 BERT モデル、および OpenAI の ChatGPT の両方と、SO 固有の 4 つのダウンストリーム タスク (質問品質予測、クローズド質問予測、固有表現認識、陳腐化予測) について比較します。
(新しいタスクを紹介します)。
私たちのモデルは一貫してすべてのベースラインを上回るパフォーマンスを示すだけでなく、多くの場合、より小さなモデルでも優れた結果を得るのに十分です。
両モデルとも一般公開されている。
これらの結果は、ドメイン内データに対して広範囲かつ適切に事前トレーニングを行うことで、クローズドソースの汎用モデルを活用するための強力かつ手頃な代替手段が得られることを示しています。

要約(オリジナル)

Large pre-trained neural language models have brought immense progress to both NLP and software engineering. Models in OpenAI’s GPT series now dwarf Google’s BERT and Meta’s RoBERTa, which previously set new benchmarks on a wide range of NLP applications. These models are trained on massive corpora of heterogeneous data from web crawls, which enables them to learn general language patterns and semantic relationships. However, the largest models are both expensive to train and deploy and are often closed-source, so we lack access to their data and design decisions. We argue that this trend towards large, general-purpose models should be complemented with single-purpose, more modestly sized pre-trained models. In this work, we take StackOverflow (SO) as a domain example in which large volumes of rich aligned code and text data is available. We adopt standard practices for pre-training large language models, including using a very large context size (2,048 tokens), batch size (0.5M tokens) and training set (27B tokens), coupled with a powerful toolkit (Megatron-LM), to train two models: SOBertBase, with 109M parameters, and SOBertLarge with 762M parameters, at a budget of just $\$187$ and $\$800$ each. We compare the performance of our models with both the previous SOTA model trained on SO data exclusively as well general-purpose BERT models and OpenAI’s ChatGPT on four SO-specific downstream tasks – question quality prediction, closed question prediction, named entity recognition and obsoletion prediction (a new task we introduce). Not only do our models consistently outperform all baselines, the smaller model is often sufficient for strong results. Both models are released to the public. These results demonstrate that pre-training both extensively and properly on in-domain data can yield a powerful and affordable alternative to leveraging closed-source general-purpose models.

arxiv情報

著者 Manisha Mukherjee,Vincent J. Hellendoorn
発行日 2024-01-24 07:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク