mGPT: Few-Shot Learners Go Multilingual

要約

最近の研究では、自己回帰言語モデルがゼロショットおよび少数ショット学習パラダイムを介して多くの NLP タスクを首尾よく解決できることが報告されており、これにより、事前トレーニングされた言語モデルを使用する新たな可能性が開かれます。
この論文では、Wikipedia と Colossal Clean Crawled Corpus を使用して、25 言語族の 60 言語でトレーニングされた 13 億と 130 億のパラメーターを持つ 2 つの自己回帰 GPT 類似モデルを紹介します。
GPT-2 ソースとスパース アテンション メカニズムを使用して GPT-3 アーキテクチャを再現します。
Deepspeed および Megatron フレームワークを使用すると、トレーニングと推論のステップを効果的に並列化できます。
結果として得られるモデルは、Facebook が最近リリースした XGLM モデルと同等のパフォーマンスを示し、より多くの言語をカバーし、CIS 諸国やロシアの小国の低リソース言語に対する NLP の可能性を高めます。
アーキテクチャ設計の選択の動機を詳細に説明し、データ準備パイプラインを徹底的に説明し、最適な多言語トークン化戦略を選択するためにモデルの 5 つの小さなバージョンをトレーニングします。
私たちは、対象となるすべての言語でモデルの複雑さを測定し、分類、生成、シーケンスのラベル付け、知識の探索など、幅広い多言語タスクに基づいてそれを評価します。
モデルはゼロショット法と少数ショット法で評価されました。
さらに、分類タスクを最先端の多言語モデル XGLM と比較しました。
ソースコードとmGPT XLモデルは公開されています。

要約(オリジナル)

Recent studies report that autoregressive language models can successfully solve many NLP tasks via zero- and few-shot learning paradigms, which opens up new possibilities for using the pre-trained language models. This paper introduces two autoregressive GPT-like models with 1.3 billion and 13 billion parameters trained on 60 languages from 25 language families using Wikipedia and Colossal Clean Crawled Corpus. We reproduce the GPT-3 architecture using GPT-2 sources and the sparse attention mechanism; Deepspeed and Megatron frameworks allow us to parallelize the training and inference steps effectively. The resulting models show performance on par with the recently released XGLM models by Facebook, covering more languages and enhancing NLP possibilities for low resource languages of CIS countries and Russian small nations. We detail the motivation for the choices of the architecture design, thoroughly describe the data preparation pipeline, and train five small versions of the model to choose the most optimal multilingual tokenization strategy. We measure the model perplexity in all covered languages and evaluate it on the wide spectre of multilingual tasks, including classification, generative, sequence labeling and knowledge probing. The models were evaluated with the zero-shot and few-shot methods. Furthermore, we compared the classification tasks with the state-of-the-art multilingual model XGLM. source code and the mGPT XL model are publicly released.

arxiv情報

著者 Oleh Shliazhko,Alena Fenogenova,Maria Tikhonova,Vladislav Mikhailov,Anastasia Kozlova,Tatiana Shavrina
発行日 2023-10-12 17:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68-04, 68-06, 68T01, 68T50, cs.AI, cs.CL, I.2 パーマリンク