要約
連続してやってくる複数のタスクから忘れずに学習するという問題に焦点を当てており、各タスクは小説や既読のクラスの数ショットのエピソードを使用して定義されます。
最近公開された HyperTransformer (HT) を使用してこの問題に取り組みます。これは、特殊なタスク固有の CNN 重みをサポート セットから直接生成する Transformer ベースのハイパーネットワークです。
タスクの継続的なシーケンスから学習するために、生成された重みを次のタスクの HT への入力として再帰的に再利用することを提案します。
このようにして、生成された CNN の重み自体が以前に学習したタスクの表現として機能し、HT はこれらの重みを更新するようにトレーニングされるため、過去のタスクを忘れることなく新しいタスクを学習できます。
このアプローチは、通常、リプレイ バッファー、重みの正則化、またはタスク依存のアーキテクチャ変更の使用に依存するほとんどの継続的学習アルゴリズムとは異なります。
プロトタイプの損失を備えた提案された継続的な HyperTransformer メソッドは、ミニバッチからの学習、タスク増分およびクラス増分学習シナリオを含む、さまざまなシナリオの過去のタスクに関する知識を学習および保持できることを示します。
要約(オリジナル)
We focus on the problem of learning without forgetting from multiple tasks arriving sequentially, where each task is defined using a few-shot episode of novel or already seen classes. We approach this problem using the recently published HyperTransformer (HT), a Transformer-based hypernetwork that generates a specialized task-specific CNN weights directly from the support set. In order to learn from a continual sequence of task, we propose to recursively re-use the generated weights as input to the HT for the next task. This way, the generated CNN weights themselves act as a representation of previously learned tasks, and the HT is trained to update these weights so that the new task can be learned without forgetting past tasks. This approach is different from most continual learning algorithms that typically rely on using replay buffers, weight regularization or task-dependent architectural changes. We demonstrate that our proposed Continual HyperTransformer method equipped with a prototypical loss is capable of learning and retaining knowledge about past tasks for a variety of scenarios, including learning from mini-batches, and task-incremental and class-incremental learning scenarios.
arxiv情報
著者 | Max Vladymyrov,Andrey Zhmoginov,Mark Sandler |
発行日 | 2023-01-11 17:27:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google