HyperInterval: Hypernetwork approach to training weight interval regions in continual learning

要約

最近、壊滅的な忘却を制御するための新しい継続学習 (CL) パラダイムが提示されました。これは、インターバル継続学習 (InterContiNet) と呼ばれます。これは、ニューラル ネットワーク パラメーター空間に間隔制約を適用することに依存しています。
残念ながら、InterContiNet トレーニングは重み空間が高次元であるため困難であり、インターバルの管理が困難です。
この問題に対処するために、\our{} \footnote{ソース コードは https://github.com/gmum/HyperInterval で入手可能} を導入しました。これは、埋め込み空間内で区間演算を使用し、ハイパーネットワークを利用して埋め込み空間をマッピングする技術です。
ターゲットネットワークパラメータ空間への間隔。
連続タスクの間隔埋め込みをトレーニングし、これらの埋め込みをターゲット ネットワークの重みに変換するハイパーネットワークをトレーニングします。
特定のタスクのエンベディングはハイパーネットワークとともにトレーニングされ、前のタスクのエンベディングに対するターゲット ネットワークの応答が保存されます。
区間演算は、高次元の重み空間で区間を直接準備するのではなく、より管理しやすい低次元の埋め込み空間で機能します。
私たちのモデルにより、より迅速かつ効率的なトレーニングが可能になります。
さらに、\our{} は忘れないことを保証します。
トレーニングの最後に、ユニバーサル エンベディングを 1 つ選択して、すべてのタスク専用の単一のネットワークを作成できます。
このようなフレームワークでは、ハイパーネットワークはトレーニングにのみ使用され、最終的には 1 セットの重みを利用できます。
\our{} は InterContiNet よりも大幅に優れた結果を取得し、いくつかのベンチマークで SOTA 結果を示します。

要約(オリジナル)

Recently, a new Continual Learning (CL) paradigm was presented to control catastrophic forgetting, called Interval Continual Learning (InterContiNet), which relies on enforcing interval constraints on the neural network parameter space. Unfortunately, InterContiNet training is challenging due to the high dimensionality of the weight space, making intervals difficult to manage. To address this issue, we introduce \our{} \footnote{The source code is available at https://github.com/gmum/HyperInterval}, a technique that employs interval arithmetic within the embedding space and utilizes a hypernetwork to map these intervals to the target network parameter space. We train interval embeddings for consecutive tasks and train a hypernetwork to transform these embeddings into weights of the target network. An embedding for a given task is trained along with the hypernetwork, preserving the response of the target network for the previous task embeddings. Interval arithmetic works with a more manageable, lower-dimensional embedding space rather than directly preparing intervals in a high-dimensional weight space. Our model allows faster and more efficient training. Furthermore, \our{} maintains the guarantee of not forgetting. At the end of training, we can choose one universal embedding to produce a single network dedicated to all tasks. In such a framework, hypernetwork is used only for training and, finally, we can utilize one set of weights. \our{} obtains significantly better results than InterContiNet and gives SOTA results on several benchmarks.

arxiv情報

著者 Patryk Krukowski,Anna Bielawska,Kamil Książek,Paweł Wawrzyński,Paweł Batorski,Przemysław Spurek
発行日 2024-09-02 15:09:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク