A Study of Continual Learning Under Language Shift

要約

最近、言語モデルの事前トレーニングのためのデータとモデルの規模が増大し、トレーニング コストが膨大になっています。
したがって、時間の経過とともに新しいデータが利用可能になるシナリオでは、モデルを完全に再トレーニングするのではなく更新することで、大きなメリットが得られます。
この論文では、新しいデータが新しい言語から得られた場合、つまり言語移行下での継続学習の場合、言語モデルを更新する利点と欠点を研究します。
単一言語の英語モデルから始めて、ノルウェー語とアイスランド語のデータを段階的に追加して、さまざまなモデル サイズと学習率スケジューラについて、前方および後方の伝達効果が事前学習順序と言語の特性にどのように依存するかを調査します。
私たちの結果は、前方転移は主に正で言語の順序とは無関係である一方、後方転移は新しい言語の順序と特性に応じて正にも負にもなり得ることを示しています。
これらのパターンを説明するために、いくつかの言語類似性指標を調査したところ、構文上の類似性が結果と最もよく相関していることがわかりました。

要約(オリジナル)

The recent increase in data and model scale for language model pre-training has led to huge training costs. In scenarios where new data become available over time, updating a model instead of fully retraining it would therefore provide significant gains. In this paper, we study the benefits and downsides of updating a language model when new data comes from new languages – the case of continual learning under language shift. Starting from a monolingual English language model, we incrementally add data from Norwegian and Icelandic to investigate how forward and backward transfer effects depend on the pre-training order and characteristics of languages, for different model sizes and learning rate schedulers. Our results show that, while forward transfer is largely positive and independent of language order, backward transfer can be either positive or negative depending on the order and characteristics of new languages. To explain these patterns we explore several language similarity metrics and find that syntactic similarity appears to have the best correlation with our results.

arxiv情報

著者 Evangelia Gogoulou,Timothée Lesort,Magnus Boman,Joakim Nivre
発行日 2023-11-02 12:54:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク