When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages

要約

多言語言語モデルは、NLP システムを低リソース言語に拡張するために広く使用されています。
ただし、多言語性が個々の言語の言語モデリングのパフォーマンスに与える影響についての具体的な証拠は依然として不足しています。
ここでは、NLP で十分に研究されていない複数の言語ファミリーを含む、250 以上の言語に対して 10,000 を超える単言語および多言語の言語モデルを事前トレーニングします。
各言語の言語モデリングのパフォーマンスが、(1) 単言語データセット サイズ、(2) 追加された多言語データセット サイズ、(3) 追加された言語の言語的類似性、および (4) モデル サイズ (最大 4,500 万のパラメーター) の関数としてどのように変化するかを評価します。
)。
多言語データを適度に追加すると、低リソースのデータセットのサイズが最大 33% 増加するのと同様に、低リソースの言語モデリングのパフォーマンスが向上することがわかりました。
改善は、追加された多言語データの構文の類似性に依存しますが、語彙の重複による影響はわずかです。
ただし、高リソース言語は、多言語の事前トレーニング シナリオでは一貫してパフォーマンスが低下します。
データセットのサイズが大きくなるにつれて、多言語データを追加すると、おそらくモデルの容量が限られているため、低リソース言語と高リソース言語の両方でパフォーマンスが低下し始めます (「多言語の呪い」)。
これらの結果は、大規模な多言語の事前トレーニングは、関連する言語にとって最適ではない可能性があるが、よりターゲットを絞ったモデルによりパフォーマンスを大幅に向上できることを示唆しています。

要約(オリジナル)

Multilingual language models are widely used to extend NLP systems to low-resource languages. However, concrete evidence for the effects of multilinguality on language modeling performance in individual languages remains scarce. Here, we pre-train over 10,000 monolingual and multilingual language models for over 250 languages, including multiple language families that are under-studied in NLP. We assess how language modeling performance in each language varies as a function of (1) monolingual dataset size, (2) added multilingual dataset size, (3) linguistic similarity of the added languages, and (4) model size (up to 45M parameters). We find that in moderation, adding multilingual data improves low-resource language modeling performance, similar to increasing low-resource dataset sizes by up to 33%. Improvements depend on the syntactic similarity of the added multilingual data, with marginal additional effects of vocabulary overlap. However, high-resource languages consistently perform worse in multilingual pre-training scenarios. As dataset sizes increase, adding multilingual data begins to hurt performance for both low-resource and high-resource languages, likely due to limited model capacity (the ‘curse of multilinguality’). These results suggest that massively multilingual pre-training may not be optimal for any languages involved, but that more targeted models can significantly improve performance.

arxiv情報

著者 Tyler A. Chang,Catherine Arnett,Zhuowen Tu,Benjamin K. Bergen
発行日 2023-11-15 18:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク