MiLMo:Minority Multilingual Pre-trained Language Model

要約

タイトル: MiLMo: マイノリティ多言語事前学習言語モデル
要約:
– 事前学習言語モデルは、大規模な非監視データ上でトレーニングされ、小規模なラベル付きデータセットでモデルを微調整することができ、良好な結果を得ることができます。
– 多言語事前学習言語モデルは、複数の言語でトレーニングされ、モデルは同時に複数の言語を理解することができます。
– 現在、事前トレーニングモデルに関する研究は主に豊富なリソースに焦点を当てており、少数言語などの低リソース言語に関する研究は比較的少ないため、一般的な多言語学習モデルは少数言語に対してうまく機能しません。 そのため、本研究では、モンゴル語、チベット語、ウイグル語、カザフ語、朝鮮語を含む少数言語のタスクに対してより良い性能を発揮する多言語事前学習モデルであるMiLMoを構築します。
– マイノリティ言語のデータセットの不足問題を解決し、MiLMoモデルの有効性を検証するために、本論文ではMiTCという少数マルチリンガルテキスト分類データセットを構築し、各言語のword2vecモデルをトレーニングします。
– テキスト分類のタスクでword2vecモデルと事前学習モデルを比較し、少数言語の下流タスクの研究の最適な手法を提供します。
– 最終的な実験結果は、事前学習モデルのパフォーマンスがword2vecモデルよりも優れており、少数マルチリンガルテキスト分類でも最高の結果を達成したことを示します。
– 多言語事前学習モデルMiLMo、多言語word2vecモデル、そして少数マルチリンガルテキスト分類データセットMiTCは、http://milmo.cmli-nlp.com/で公開されています。

要約(オリジナル)

Pre-trained language models are trained on large-scale unsupervised data, and they can fine-turn the model only on small-scale labeled datasets, and achieve good results. Multilingual pre-trained language models can be trained on multiple languages, and the model can understand multiple languages at the same time. At present, the search on pre-trained models mainly focuses on rich resources, while there is relatively little research on low-resource languages such as minority languages, and the public multilingual pre-trained language model can not work well for minority languages. Therefore, this paper constructs a multilingual pre-trained model named MiLMo that performs better on minority language tasks, including Mongolian, Tibetan, Uyghur, Kazakh and Korean. To solve the problem of scarcity of datasets on minority languages and verify the effectiveness of the MiLMo model, this paper constructs a minority multilingual text classification dataset named MiTC, and trains a word2vec model for each language. By comparing the word2vec model and the pre-trained model in the text classification task, this paper provides an optimal scheme for the downstream task research of minority languages. The final experimental results show that the performance of the pre-trained model is better than that of the word2vec model, and it has achieved the best results in minority multilingual text classification. The multilingual pre-trained model MiLMo, multilingual word2vec model and multilingual text classification dataset MiTC are published on http://milmo.cmli-nlp.com/.

arxiv情報

著者 Junjie Deng,Hanru Shi,Xinhe Yu,Wugedele Bao,Yuan Sun,Xiaobing Zhao
発行日 2023-04-10 08:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク