Disentangling and Mitigating the Impact of Task Similarity for Continual Learning

要約

部分的に類似したタスクを継続的に学習することは、人工ニューラル ネットワークにとって課題となります。タスクの類似性は、知識伝達の機会と、干渉や壊滅的な忘却のリスクの両方をもたらすからです。
しかし、入力特徴と読み出しパターンにおけるタスクの類似性が知識の伝達と忘却にどのように影響するか、またそれらが継続学習のための共通アルゴリズムとどのように相互作用するかは依然として不明である。
ここでは、潜在構造を持つ線形教師-生徒モデルを開発し、入力特徴の高い類似性と低い読み出し類似性が組み合わさることで、知識の伝達と保持の両方に壊滅的な影響を与えることを分析的に示します。
逆に、その逆のシナリオは比較的穏やかです。
さらに、私たちの分析では、タスク依存のアクティビティ ゲーティングは、伝達を犠牲にして知識の保持を向上させるのに対し、タスク依存の可塑性ゲーティングは、パラメータ化された制限が過剰な場合でも保持や伝達のパフォーマンスに影響を与えないことが明らかになりました。
対照的に、フィッシャー情報メトリックに基づく重みの正則化は、タスクの類似性に関係なく、転送パフォーマンスを損なうことなく、保持を大幅に向上させます。
それにもかかわらず、ユークリッド空間での対角近似と正則化は、タスクの類似性に対してあまり堅牢ではありません。
潜在変数を使用して並べ替えた MNIST タスクで一貫した結果が得られることを示します。
全体として、この研究は、継続的な学習が困難な場合とそれを軽減する方法についての洞察を提供します。

要約(オリジナル)

Continual learning of partially similar tasks poses a challenge for artificial neural networks, as task similarity presents both an opportunity for knowledge transfer and a risk of interference and catastrophic forgetting. However, it remains unclear how task similarity in input features and readout patterns influences knowledge transfer and forgetting, as well as how they interact with common algorithms for continual learning. Here, we develop a linear teacher-student model with latent structure and show analytically that high input feature similarity coupled with low readout similarity is catastrophic for both knowledge transfer and retention. Conversely, the opposite scenario is relatively benign. Our analysis further reveals that task-dependent activity gating improves knowledge retention at the expense of transfer, while task-dependent plasticity gating does not affect either retention or transfer performance at the over-parameterized limit. In contrast, weight regularization based on the Fisher information metric significantly improves retention, regardless of task similarity, without compromising transfer performance. Nevertheless, its diagonal approximation and regularization in the Euclidean space are much less robust against task similarity. We demonstrate consistent results in a permuted MNIST task with latent variables. Overall, this work provides insights into when continual learning is difficult and how to mitigate it.

arxiv情報

著者 Naoki Hiratani
発行日 2024-05-30 16:40:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク