Semiparametric Language Models Are Scalable Continual Learners

要約

セミパラメトリック言語モデル (LM) は、パラメーター化されたニューラル LM と、新しいコンテンツを記憶するための拡張可能なノンパラメトリック メモリを組み合わせることにより、新しいテキスト データから継続的に学習する可能性を示しています。
ただし、従来のセミパラメトリック LM は、ストリーミング データを介した継続的な学習に適用される場合、最終的に計算と保存が不可能になります。ノンパラメトリック メモリは、時間の経過とともに学習するデータの量に比例して増加するためです。
スケーラビリティの問題に対処するために、選択的記憶 (SeMem) と呼ばれるシンプルで直感的なアプローチを提示します。これは、モデルが苦労する可能性が高い難しいサンプルのみを記憶します。
SeMem が、ストリーミング データを介した継続的な学習のためのセミパラメトリック LM のスケーラビリティを次の 2 つの方法で改善することを実証します。
ノンパラメトリック メモリの成長は、トレーニング データのサイズに比例して増加するのではなく、時間の経過とともに遅くなります。
(2) モデル単位のスケーラビリティ: SeMem を使用すると、大規模なモデルが理解できないケースに遭遇することはめったにないため、大規模なモデルは小さなモデルよりも少ないサンプルを記憶できます。その結果、ノンパラメトリック メモリはモデル サイズに比例してスケーリングしません。
SeMem の結果をテストするために言語モデリングとダウンストリーム タスクで広範な実験を行い、SeMem によってセミパラメトリック LM がほとんど忘れることなくスケーラブルな継続学習器になることを示します。

要約(オリジナル)

Semiparametric language models (LMs) have shown promise in continuously learning from new text data by combining a parameterized neural LM with a growable non-parametric memory for memorizing new content. However, conventional semiparametric LMs will finally become prohibitive for computing and storing if they are applied to continual learning over streaming data, because the non-parametric memory grows linearly with the amount of data they learn from over time. To address the issue of scalability, we present a simple and intuitive approach called Selective Memorization (SeMem), which only memorizes difficult samples that the model is likely to struggle with. We demonstrate that SeMem improves the scalability of semiparametric LMs for continual learning over streaming data in two ways: (1) data-wise scalability: as the model becomes stronger through continual learning, it will encounter fewer difficult cases that need to be memorized, causing the growth of the non-parametric memory to slow down over time rather than growing at a linear rate with the size of training data; (2) model-wise scalability: SeMem allows a larger model to memorize fewer samples than its smaller counterpart because it is rarer for a larger model to encounter incomprehensible cases, resulting in a non-parametric memory that does not scale linearly with model size. We conduct extensive experiments in language modeling and downstream tasks to test SeMem’s results, showing SeMem enables a semiparametric LM to be a scalable continual learner with little forgetting.

arxiv情報

著者 Guangyue Peng,Tao Ge,Si-Qing Chen,Furu Wei,Houfeng Wang
発行日 2023-03-02 17:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク