Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining

要約

言語モデルの世界は激動の時代を迎えており、より優れた、より大規模なモデルが前例のないスピードで登場しています。
しかし、特に科学界にとっては、最大 10 億パラメータのエンコーダ モデルが依然として非常に必要とされており、その主な用途は、下流の研究に必要なメタデータで大規模なデータ コレクションを強化することにあると私たちは主張します。
私たちは、クロアチア語、セルビア語、ボスニア語、モンテネグロ語など、非常に密接に関連した言語のセット上でそのようなエンコーダ モデルが存在することを保証する最良の方法を調査します。そのためには、これらの言語に対して多様なベンチマークを設定し、スクラッチからトレーニングされたモデルと比較することによって行われます。
新しいモデルは、既存の多言語モデルの追加の事前トレーニングによって構築されます。
限られた計算量であっても、利用可能な多言語モデルを追加で事前トレーニングすることによって、専用のスクラッチ モデルと同等のパフォーマンスが得られることを示します。
また、近隣言語 (この場合はスロベニア語) を、最終モデルのパフォーマンスをほとんどまたはまったく損なうことなく、追加の事前トレーニングに含めることができることも示します。

要約(オリジナル)

The world of language models is going through turbulent times, better and ever larger models are coming out at an unprecedented speed. However, we argue that, especially for the scientific community, encoder models of up to 1 billion parameters are still very much needed, their primary usage being in enriching large collections of data with metadata necessary for downstream research. We investigate the best way to ensure the existence of such encoder models on the set of very closely related languages – Croatian, Serbian, Bosnian and Montenegrin, by setting up a diverse benchmark for these languages, and comparing the trained-from-scratch models with the new models constructed via additional pretraining of existing multilingual models. We show that comparable performance to dedicated from-scratch models can be obtained by additionally pretraining available multilingual models even with a limited amount of computation. We also show that neighboring languages, in our case Slovenian, can be included in the additional pretraining with little to no loss in the performance of the final model.

arxiv情報

著者 Nikola Ljubešić,Vít Suchomel,Peter Rupnik,Taja Kuzman,Rik van Noord
発行日 2024-04-08 11:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク