要約
人工ニューラル ネットワークは、複数のタスクを順番にトレーニングすると、壊滅的な忘却に悩まされます。
多くの継続学習 (CL) 戦略がこの問題を克服しようとしています。
最も効果的な方法の 1 つは、ハイパーネットワーク ベースのアプローチです。
ハイパーネットワークは、タスクの ID に基づいてターゲット モデルの重みを生成します。
このモデルの主な制限は、実際には、ハイパーネットワークが後続のタスクに対してまったく異なるアーキテクチャを生成する可能性があることです。
このような問題を解決するために、ネットワーク全体のパフォーマンスを維持する、当選チケットと呼ばれる疎なサブネットワークの存在を仮定する宝くじ仮説を使用します。
この論文では、すべての CL タスクに対して単一のネットワークをトレーニングする HyperMask と呼ばれる方法を提案しています。
ハイパーネットワークはセミバイナリ マスクを生成して、連続タスク専用のターゲット サブネットワークを取得します。
さらに、宝くじの仮説により、重み付けされたサブネットを持つ単一のネットワークを使用できます。
タスクに応じて、一部の重みの重要性が動的に強化される一方で、他の重みが弱くなる場合があります。
HyperMask は、いくつかの CL データセットで競合する結果を達成し、一部のシナリオでは、派生タスク ID と未知のタスク ID の両方で最先端のスコアを超えています。
要約(オリジナル)
Artificial neural networks suffer from catastrophic forgetting when they are sequentially trained on multiple tasks. Many continual learning (CL) strategies are trying to overcome this problem. One of the most effective is the hypernetwork-based approach. The hypernetwork generates the weights of a target model based on the task’s identity. The model’s main limitation is that, in practice, the hypernetwork can produce completely different architectures for subsequent tasks. To solve such a problem, we use the lottery ticket hypothesis, which postulates the existence of sparse subnetworks, named winning tickets, that preserve the performance of a whole network. In the paper, we propose a method called HyperMask, which trains a single network for all CL tasks. The hypernetwork produces semi-binary masks to obtain target subnetworks dedicated to consecutive tasks. Moreover, due to the lottery ticket hypothesis, we can use a single network with weighted subnets. Depending on the task, the importance of some weights may be dynamically enhanced while others may be weakened. HyperMask achieves competitive results in several CL datasets and, in some scenarios, goes beyond the state-of-the-art scores, both with derived and unknown task identities.
arxiv情報
| 著者 | Kamil Książek,Przemysław Spurek |
| 発行日 | 2024-02-01 18:01:02+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google