Keep Moving: identifying task-relevant subspaces to maximise plasticity for newly learned tasks

要約

継続学習アルゴリズムは、以前の情報を保存しながら新しい知識を獲得しようとします。
多くの場合、これらのアルゴリズムは安定性を重視し、新しいタスクを学習する際のネットワークの更新を制限します。
多くの場合、このような制限はモデルの可塑性、つまり新しいタスクの要件に適応するモデルの能力を犠牲にします。
しかし、すべての変化は有害なのでしょうか?
ここでは、ニューラル ネットワークの活性化空間が 2 つの部分空間に分解できることを提案することで、この問題にアプローチします。変更が以前のタスクに影響を与える読み出し範囲と、変更が以前のパフォーマンスを変えないヌル空間です。
この新しい技術を用いた実験に基づいて、実際、すべての活性化の変化が忘却に関連しているわけではないことを示します。
代わりに、タスクの読み出しに表示される部分空間内の唯一の変化は安定性の低下につながる可能性があり、この部分空間外の変更を制限すると可塑性が失われるだけです。
一般的に使用されるさまざまなアルゴリズムを分析したところ、正則化ベースの手法では 2 つの空間が完全に解きほぐされず、その結果、可塑性が必要以上に制限されてしまうことがわかりました。
私たちは、2 つの部分空間での学習を直接操作できる線形モデルを調査することで結果を拡張し、活性化の変化を安定性と可塑性と因果的に関連付けます。
階層的な非線形の場合については、深層非線形ネットワークの各層で機能的に関連する部分空間を推定できる近似を提示し、これまでの洞察を裏付けます。
総合すると、この研究は、継続学習における安定性と可塑性の背後にあるメカニズムについての洞察を引き出すための新しい手段を提供し、学習のための空間を最大限に確保しながら推論を安定させる将来の継続学習アルゴリズムの開発を導くための診断ツールとして機能する可能性があります。

要約(オリジナル)

Continual learning algorithms strive to acquire new knowledge while preserving prior information. Often, these algorithms emphasise stability and restrict network updates upon learning new tasks. In many cases, such restrictions come at a cost to the model’s plasticity, i.e. the model’s ability to adapt to the requirements of a new task. But is all change detrimental? Here, we approach this question by proposing that activation spaces in neural networks can be decomposed into two subspaces: a readout range in which change affects prior tasks and a null space in which change does not alter prior performance. Based on experiments with this novel technique, we show that, indeed, not all activation change is associated with forgetting. Instead, the only change in the subspace visible to the readout of a task can lead to decreased stability, while restricting change outside of this subspace is associated only with a loss of plasticity. Analysing various commonly used algorithms, we show that regularisation-based techniques do not fully disentangle the two spaces and, as a result, restrict plasticity more than need be. We expand our results by investigating a linear model in which we can manipulate learning in the two subspaces directly and thus causally link activation changes to stability and plasticity. For hierarchical, nonlinear cases, we present an approximation that enables us to estimate functionally relevant subspaces at every layer of a deep nonlinear network, corroborating our previous insights. Together, this work provides novel means to derive insights into the mechanisms behind stability and plasticity in continual learning and may serve as a diagnostic tool to guide developments of future continual learning algorithms that stabilise inference while allowing maximal space for learning.

arxiv情報

著者 Daniel Anthes,Sushrut Thorat,Peter König,Tim C. Kietzmann
発行日 2024-02-16 13:30:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.NC パーマリンク