A Family of Pretrained Transformer Language Models for Russian

要約

変換言語モデル(LM)は、様々な言語におけるNLP研究方法論とアプリケーションの基本である。しかし、ロシア語に特化したこのようなモデルの開発はほとんど注目されていない。本論文では、エンコーダ(ruBERT, ruRoBERTa, ruELECTRA)、デコーダ(ruGPT-3)、エンコーダ・デコーダ(ruT5, FRED-T5)アーキテクチャにまたがる、13個のロシア語トランスフォーマ言語モデルを紹介する。モデルアーキテクチャの設計と事前学習、およびロシア語理解・生成データセットとベンチマークに対する汎化能力の評価結果について報告する。これらの特殊なTransformer LMを事前学習し公開することで、NLP研究の方向性の幅を広げ、ロシア語の産業ソリューションの開発を可能にすることを目指す。

要約(オリジナル)

Transformer language models (LMs) are fundamental to NLP research methodologies and applications in various languages. However, developing such models specifically for the Russian language has received little attention. This paper introduces a collection of 13 Russian Transformer LMs, which spans encoder (ruBERT, ruRoBERTa, ruELECTRA), decoder (ruGPT-3), and encoder-decoder (ruT5, FRED-T5) architectures. We provide a report on the model architecture design and pretraining, and the results of evaluating their generalization abilities on Russian language understanding and generation datasets and benchmarks. By pretraining and releasing these specialized Transformer LMs, we aim to broaden the scope of the NLP research directions and enable the development of industrial solutions for the Russian language.

arxiv情報

著者 Dmitry Zmitrovich,Alexander Abramov,Andrey Kalmykov,Maria Tikhonova,Ekaterina Taktasheva,Danil Astafurov,Mark Baushenko,Artem Snegirev,Vitalii Kadulin,Sergey Markov,Tatiana Shavrina,Vladislav Mikhailov,Alena Fenogenova
発行日 2024-08-02 14:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク