GateON: an unsupervised method for large scale continual learning

要約

継続学習(CL)の目的は、以前のタスクで再トレーニングすることなく、タスクを逐次学習することである。しかし、従来のニューラルネットワークは、CLを行った場合、壊滅的な忘却と限定的な汎化性を示す。このような問題を克服するために、我々は「Gate and Obstruct Network」(GateON)と呼ばれる新しい手法を導入する。GateONは、学習可能な活動ゲートとパラメータの関連性のオンライン推定を組み合わせ、重要な知識が上書きされないように保護する。本手法は、タスク間で部分的に重複するパスウェイを生成し、逐次学習中の前方および後方への転送を可能にします。GateONは、固定ニューロンの再活性化メカニズムにより、パラメータ固定後のネットワーク飽和の問題を解決し、大規模な継続学習を可能にします。GateONは、様々なネットワーク(完全連結型、CNN、Transformers)に実装され、計算量が少なく、最大100個のMNIST学習タスクを効果的に学習し、CLベースのNLPタスクにおいて事前学習済みのBERTでトップレベルの結果を達成しました。

要約(オリジナル)

The objective of continual learning (CL) is to learn tasks sequentially without retraining on earlier tasks. However, when subjected to CL, traditional neural networks exhibit catastrophic forgetting and limited generalization. To overcome these problems, we introduce a novel method called ‘Gate and Obstruct Network’ (GateON). GateON combines learnable gating of activity and online estimation of parameter relevance to safeguard crucial knowledge from being overwritten. Our method generates partially overlapping pathways between tasks which permits forward and backward transfer during sequential learning. GateON addresses the issue of network saturation after parameter fixation by a re-activation mechanism of fixed neurons, enabling large-scale continual learning. GateON is implemented on a wide range of networks (fully-connected, CNN, Transformers), has low computational complexity, effectively learns up to 100 MNIST learning tasks, and achieves top-tier results for pre-trained BERT in CL-based NLP tasks.

arxiv情報

著者 Martin Barry,Guillaume Bellec,Wulfram Gerstner
発行日 2023-06-02 17:04:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク