要約
非定常データストリームでの継続学習(CL)は、壊滅的な忘却を招きやすいため、ディープニューラルネットワーク(DNN)の長年の課題の1つです。
CLモデルは、より一般化可能なタスクに依存しない機能を学習できるため、自己教師あり事前トレーニングの恩恵を受けることができます。
ただし、タスクシーケンスの長さが長くなると、自己監視による事前トレーニングの効果は減少します。
さらに、事前トレーニングデータ分散とタスク分散の間のドメインシフトは、学習された表現の一般化可能性を低下させます。
これらの制限に対処するために、タスクにとらわれない学習とタスク固有の学習を組み合わせたCLの2段階のトレーニングパラダイムであるタスクにとらわれない表現の統合(TARC)を提案します。これにより、自己管理型トレーニングの後に各タスクの教師あり学習が続きます。
自己監視段階で学習された表現からの逸脱をさらに制限するために、監視段階でタスクにとらわれない補助損失を採用します。
トレーニングパラダイムをメモリベースまたは正則化ベースのアプローチに簡単に追加でき、より困難なCL設定全体で一貫したパフォーマンスの向上を提供できることを示します。
さらに、より堅牢で適切に調整されたモデルにつながることを示します。
要約(オリジナル)
Continual learning (CL) over non-stationary data streams remains one of the long-standing challenges in deep neural networks (DNNs) as they are prone to catastrophic forgetting. CL models can benefit from self-supervised pre-training as it enables learning more generalizable task-agnostic features. However, the effect of self-supervised pre-training diminishes as the length of task sequences increases. Furthermore, the domain shift between pre-training data distribution and the task distribution reduces the generalizability of the learned representations. To address these limitations, we propose Task Agnostic Representation Consolidation (TARC), a two-stage training paradigm for CL that intertwines task-agnostic and task-specific learning whereby self-supervised training is followed by supervised learning for each task. To further restrict the deviation from the learned representations in the self-supervised stage, we employ a task-agnostic auxiliary loss during the supervised stage. We show that our training paradigm can be easily added to memory- or regularization-based approaches and provides consistent performance gain across more challenging CL settings. We further show that it leads to more robust and well-calibrated models.
arxiv情報
著者 | Prashant Bhat,Bahram Zonooz,Elahe Arani |
発行日 | 2022-07-13 15:16:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google