要約
多言語の大手言語モデル(LLM)は、自然言語処理(NLP)の研究者と実践者の間で大きな人気を博しています。
これらのモデルは、巨大なデータセットでトレーニングされ、さまざまな言語で習熟度を示し、多数の下流タスクで有効性を示しています。
このペーパーでは、多言語LLMSの風景をナビゲートし、技術的側面の概要を紹介します。
基礎となるアーキテクチャ、目的関数、トレーニング前のデータソース、およびトークン化方法を説明しています。
この作業では、異なるモデルタイプのユニークな機能を調査します:エンコーダーのみ(Mbert、XLM-R)、デコーダーのみ(XGLM、PALM、BLOOM、GPT-3)、およびエンコーダーデコーダーモデル(MT5、MBART)。
さらに、多言語LLMの重要な制限の1つである多言語性の呪いに対処し、それを克服しようとする現在の試みについて説明します。
要約(オリジナル)
Multilingual Large Language Models (LLMs) have gained large popularity among Natural Language Processing (NLP) researchers and practitioners. These models, trained on huge datasets, show proficiency across various languages and demonstrate effectiveness in numerous downstream tasks. This paper navigates the landscape of multilingual LLMs, providing an introductory overview of their technical aspects. It explains underlying architectures, objective functions, pre-training data sources, and tokenization methods. This work explores the unique features of different model types: encoder-only (mBERT, XLM-R), decoder-only (XGLM, PALM, BLOOM, GPT-3), and encoder-decoder models (mT5, mBART). Additionally, it addresses one of the significant limitations of multilingual LLMs – the curse of multilinguality – and discusses current attempts to overcome it.
arxiv情報
著者 | Daniil Gurgurov,Tanja Bäumel,Tatiana Anikina |
発行日 | 2025-04-25 10:53:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google