要約
最近、言語モデルの事前トレーニングのためのデータとモデルの規模が増大し、トレーニング コストが膨大になっています。
したがって、時間の経過とともに新しいデータが利用可能になるシナリオでは、モデルを完全に再トレーニングするのではなく更新することで、大きなメリットが得られます。
私たちは、新しいデータが新しい言語から来た場合、つまり言語シフトの下での継続学習の場合、言語モデルを更新することのメリットとデメリットを研究します。
単言語の英語モデルから始めて、デンマーク語、アイスランド語、ノルウェー語のデータを段階的に追加して、3 つの異なるモデル サイズについて、前方および後方の伝達効果が事前トレーニングの順序と言語の特性にどのように依存するかを調査します。
私たちの結果は、前方転移は主に正で言語の順序とは無関係である一方、後方転移は新しい言語の順序と特性に応じて正にも負にもなり得ることを示しています。
私たちは、多くの潜在的な説明要因を調査し、言語の汚染と構文の類似性の組み合わせが結果に最もよく適合することを発見しました。
要約(オリジナル)
The recent increase in data and model scale for language model pre-training has led to huge training costs. In scenarios where new data become available over time, updating a model instead of fully retraining it would therefore provide significant gains. We study the pros and cons of updating a language model when new data comes from new languages — the case of continual learning under language shift. Starting from a monolingual English language model, we incrementally add data from Danish, Icelandic, and Norwegian to investigate how forward and backward transfer effects depend on pre-training order and characteristics of languages, for three different model sizes. Our results show that, while forward transfer is largely positive and independent of language order, backward transfer can be positive or negative depending on the order and characteristics of new languages. We explore a number of potentially explanatory factors and find that a combination of language contamination and syntactic similarity best fits our results.
arxiv情報
著者 | Evangelia Gogoulou,Timothée Lesort,Magnus Boman,Joakim Nivre |
発行日 | 2024-02-26 08:20:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google