要約
大規模な事前トレーニング済みの言語モデルは、さまざまな自然言語処理 (NLP) タスクで最先端の技術を達成するのに役立ちますが、一連のタスクを段階的に学習する際に忘れてしまうという問題が依然としてあります。
この問題を軽減するために、最近の研究では、まばらな経験の再生と局所的な適応によって既存のモデルが強化され、満足のいくパフォーマンスが得られます。
ただし、この論文では、BERT のような事前にトレーニングされた言語モデルには、疎なメモリのリプレイがなくても、順次学習する潜在的な能力があることがわかりました。
古い知識を維持する BERT の能力を検証するために、BERT のパラメーターが固定された単層プローブ ネットワークを採用し、再調整します。
テキスト分類と抽出的質問応答の 2 種類の NLP タスクに関するモデルを調査します。
私たちの実験では、BERT は、非常にまばらなリプレイまたはリプレイなしでさえ、以前に学習したタスクの高品質の表現を長期的に実際に生成できることが明らかになりました。
さらに、忘却のメカニズムを解釈するための一連の新しい方法と、記憶リハーサルがタスクの漸進的学習において重要な役割を果たす方法を紹介します。これにより、壊滅的な忘却に関する私たちの新しい発見と以前の研究との間のギャップが埋められます。
要約(オリジナル)
Large pre-trained language models help to achieve state of the art on a variety of natural language processing (NLP) tasks, nevertheless, they still suffer from forgetting when incrementally learning a sequence of tasks. To alleviate this problem, recent works enhance existing models by sparse experience replay and local adaption, which yield satisfactory performance. However, in this paper we find that pre-trained language models like BERT have a potential ability to learn sequentially, even without any sparse memory replay. To verify the ability of BERT to maintain old knowledge, we adopt and re-finetune single-layer probe networks with the parameters of BERT fixed. We investigate the models on two types of NLP tasks, text classification and extractive question answering. Our experiments reveal that BERT can actually generate high quality representations for previously learned tasks in a long term, under extremely sparse replay or even no replay. We further introduce a series of novel methods to interpret the mechanism of forgetting and how memory rehearsal plays a significant role in task incremental learning, which bridges the gap between our new discovery and previous studies about catastrophic forgetting.
arxiv情報
| 著者 | Mingxu Tao,Yansong Feng,Dongyan Zhao |
| 発行日 | 2023-03-02 09:03:43+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google