Continual learning with the neural tangent ensemble

要約

継続的な学習のための自然戦略は、固定機能のベイジアンアンサンブルを比較検討することです。
これは、(単一の)ニューラルネットワークをアンサンブルとして解釈できる場合、忘れずに学習する効果的なアルゴリズムを設計できることを示唆しています。
この可能性を実現するために、Nパラメーターを持つニューラルネットワーク分類器は、N分類器の重み付きアンサンブルとして解釈できること、および怠zyな体制が学習中にこれらの分類器が固定されていることを観察します。
これらの分類器を神経接線の専門家と呼び、ラベルに有効な確率分布を出力します。
次に、過去のデータが与えられた各専門家の可能性と事後確率を導き出します。
驚くべきことに、これらの専門家の事後更新は、ネットワークの重みよりも確率的勾配降下(SGD)のスケーリングされた投影形態と同等です。
怠zyな体制から離れて、ネットワークは、時間の経過とともに改善する適応的な専門家のアンサンブルと見なすことができます。
これらの結果は、専門家のベイジアンアンサンブルとしてのニューラルネットワークの新しい解釈を提供し、継続的な学習設定で壊滅的な忘却を理解し、緩和するための原則的な枠組みを提供します。

要約(オリジナル)

A natural strategy for continual learning is to weigh a Bayesian ensemble of fixed functions. This suggests that if a (single) neural network could be interpreted as an ensemble, one could design effective algorithms that learn without forgetting. To realize this possibility, we observe that a neural network classifier with N parameters can be interpreted as a weighted ensemble of N classifiers, and that in the lazy regime limit these classifiers are fixed throughout learning. We call these classifiers the neural tangent experts and show they output valid probability distributions over the labels. We then derive the likelihood and posterior probability of each expert given past data. Surprisingly, the posterior updates for these experts are equivalent to a scaled and projected form of stochastic gradient descent (SGD) over the network weights. Away from the lazy regime, networks can be seen as ensembles of adaptive experts which improve over time. These results offer a new interpretation of neural networks as Bayesian ensembles of experts, providing a principled framework for understanding and mitigating catastrophic forgetting in continual learning settings.

arxiv情報

著者 Ari S. Benjamin,Christian Pehle,Kyle Daruwalla
発行日 2025-02-27 17:09:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク