要約
ニューラル ネットワークは、壊滅的な干渉 (CI) に悩まされることがよくあります。新しいタスクを学習すると、以前に学習したタスクのパフォーマンスが大幅に低下します。
これは、以前のタスクをほとんど忘れることなく新しいタスクを順番に学習できる人間とは大きく対照的です。
これまでの研究では、正則化、リハーサル、生成再生、蒸留法など、CI を軽減するためのさまざまな手法が検討されてきました。
現在の研究は異なるアプローチを採用しており、自然主義的な環境では、タスクに遭遇する確率が最後に実行されてからの時間のべき乗則として減少することを示す認知科学の研究に基づいています。
私たちは、CI を軽減するための技術の現実的な評価は、模擬された自然主義的な学習環境で実行されるべきであると主張します。
したがって、人間が直面するものと同様のべき乗則環境で単純なリハーサルベースのメソッドをトレーニングする場合の CI の緩和の程度を評価します。
私たちの研究では、ドメイン増分タスク、つまり MNIST タスクでの順列の学習に対するこの新しいリハーサルベースのアプローチを調査しています。
リハーサル環境を他のベースラインと比較して、継続的な学習を促進する効果を示します。
さらに、この環境が前向きの促進、つまり後のタスクの学習を早めるかどうかを調査します。
次に、タスクの数、モデルのサイズ、各タスク後にリハーサルされるデータの量に対する学習環境の堅牢性を調査します。
特に、私たちの結果は、そのパフォーマンスが、一般的な正則化手法を使用してトレーニングされたモデルのパフォーマンスや、非べき乗則環境でのリハーサルと同等かそれよりも優れていることを示しています。
このトレーニング パラダイムの利点には、シンプルさと追加の神経回路が不要であることが含まれます。
さらに、私たちの方法は他の方法と直交しているため、将来の研究では、べき乗則環境でのトレーニングと他の継続的な学習メカニズムを組み合わせることができます。
要約(オリジナル)
Neural networks often suffer from catastrophic interference (CI): performance on previously learned tasks drops off significantly when learning a new task. This contrasts strongly with humans, who can sequentially learn new tasks without appreciably forgetting previous tasks. Prior work has explored various techniques for mitigating CI such as regularization, rehearsal, generative replay, and distillation methods. The current work takes a different approach, one guided by cognitive science research showing that in naturalistic environments, the probability of encountering a task decreases as a power-law of the time since it was last performed. We argue that a realistic evaluation of techniques for the mitigation of CI should be performed in simulated naturalistic learning environments. Thus, we evaluate the extent of mitigation of CI when training simple rehearsal-based methods in power-law environments similar to the ones humans face. Our work explores this novel rehearsal-based approach for a domain-incremental task: learning permutations in the MNIST task. We compare our rehearsal environment with other baselines to show its efficacy in promoting continual learning. Additionally, we investigate whether this environment shows forward facilitation, i.e., faster learning of later tasks. Next, we explore the robustness of our learning environment to the number of tasks, model size, and amount of data rehearsed after each task. Notably, our results show that the performance is comparable or superior to that of models trained using popular regularization methods and also to rehearsals in non-power-law environments. The benefits of this training paradigm include simplicity and the lack of a need for extra neural circuitry. In addition, because our method is orthogonal to other methods, future research can combine training in power-law environments with other continual learning mechanisms.
arxiv情報
著者 | Atith Gandhi,Raj Sanjay Shah,Vijay Marupudi,Sashank Varma |
発行日 | 2024-01-22 12:04:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google