要約
継続的学習 (CL) は、データ分布が 1 つのタスクから別のタスクにシフトすることで、時間の経過とともに一連のタスクを学習することを目的としています。
新しいタスク データでトレーニングする場合、古いタスクのデータ表現がドリフトする可能性があります。
いくつかの負の表現ドリフトは、ローカルで学習されたクラス プロトタイプとデータ表現がタスク間で不十分に相関することにより、壊滅的な忘却を引き起こす可能性があります。
このような表現のドリフトを軽減するために、学習を導くグローバルプロトタイプを見つけ、自己教師情報の正則化を使用してデータ表現を学習する方法を提案します。
具体的には、NLP タスクの場合、マスクされた言語モデリング スタイルで各タスクを定式化し、事前にトレーニングされた言語モデルで近隣注意メカニズムを介してタスクを学習します。
実験結果は、提案された方法が、表現のドリフトが少ないかなり一貫した表現を学習し、過去のタスクからのデータを再サンプリングすることなく、CL で壊滅的な忘却を大幅に削減できることを示しています。
要約(オリジナル)
Continual learning (CL) aims to learn a sequence of tasks over time, with data distributions shifting from one task to another. When training on new task data, data representations from old tasks may drift. Some negative representation drift can result in catastrophic forgetting, by causing the locally learned class prototypes and data representations to correlate poorly across tasks. To mitigate such representation drift, we propose a method that finds global prototypes to guide the learning, and learns data representations with the regularization of the self-supervised information. Specifically, for NLP tasks, we formulate each task in a masked language modeling style, and learn the task via a neighbor attention mechanism over a pre-trained language model. Experimental results show that our proposed method can learn fairly consistent representations with less representation drift, and significantly reduce catastrophic forgetting in CL without resampling data from past tasks.
arxiv情報
著者 | Xueying Bai,Jinghuan Shang,Yifan Sun,Niranjan Balasubramanian |
発行日 | 2023-03-30 17:15:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google