Preventing Catastrophic Forgetting in Continual Learning of New Natural Language Tasks

要約

マルチタスク学習 (MTL) は、1 つのモデルで複数の関連するタスクを学習するための標準的な手法として、自然言語処理で広く受け入れられています。
MTL モデルをトレーニングするには、すべてのタスクのトレーニング データを同時に使用できるようにする必要があります。
通常、システムは時間の経過とともに進化するため (たとえば、新しい機能をサポートするため)、既存の MTL モデルに新しいタスクを追加するには、通常、すべてのタスクでモデルをゼロから再トレーニングする必要があり、これには時間と計算コストがかかる可能性があります。
さらに、シナリオによっては、元のトレーニングのトレーニングに使用されたデータが、ストレージやプライバシーの問題などにより利用できなくなる場合があります。
このホワイト ペーパーでは、n 個のタスクに関する既にトレーニングされたモデルの知識を n+1 個のタスクを解決するための新しいモデルに抽出することにより、MTL モデルの能力を時間の経過とともに徐々に拡張して新しいタスクを解決するという問題に取り組みます。
壊滅的な忘却を避けるために、古いタスクの同じ分布からのラベルのないデータを活用することを提案します。
公開されているベンチマークに関する私たちの実験では、このような手法は、段階的に追加されるタスクで良好なパフォーマンスを得る一方で、既に取得した知識を保持する (つまり、古いタスクで最大 20% のパフォーマンス低下を防ぐ) ことにより、蒸留に劇的な利益をもたらすことが示されています。
さらに、主要な音声アシスタントからのデータを使用して、私たちのアプローチが実用的な設定で有益であることも示します。

要約(オリジナル)

Multi-Task Learning (MTL) is widely-accepted in Natural Language Processing as a standard technique for learning multiple related tasks in one model. Training an MTL model requires having the training data for all tasks available at the same time. As systems usually evolve over time, (e.g., to support new functionalities), adding a new task to an existing MTL model usually requires retraining the model from scratch on all the tasks and this can be time-consuming and computationally expensive. Moreover, in some scenarios, the data used to train the original training may be no longer available, for example, due to storage or privacy concerns. In this paper, we approach the problem of incrementally expanding MTL models’ capability to solve new tasks over time by distilling the knowledge of an already trained model on n tasks into a new one for solving n+1 tasks. To avoid catastrophic forgetting, we propose to exploit unlabeled data from the same distributions of the old tasks. Our experiments on publicly available benchmarks show that such a technique dramatically benefits the distillation by preserving the already acquired knowledge (i.e., preventing up to 20% performance drops on old tasks) while obtaining good performance on the incrementally added tasks. Further, we also show that our approach is beneficial in practical settings by using data from a leading voice assistant.

arxiv情報

著者 Sudipta Kar,Giuseppe Castellucci,Simone Filice,Shervin Malmasi,Oleg Rokhlenko
発行日 2023-02-22 00:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク