Continual learning with the neural tangent ensemble

要約

継続的な学習のための自然な戦略は、固定関数のベイズアンサンブルを重み付けすることです。
これは、(単一の) ニューラル ネットワークをアンサンブルとして解釈できれば、忘れることなく学習する効果的なアルゴリズムを設計できることを示唆しています。
この可能性を実現するために、N 個のパラメータを持つニューラル ネットワーク分類器が N 個の分類器の重み付きアンサンブルとして解釈できること、および遅延レジーム制限ではこれらの分類器が学習全体を通じて固定されることを観察します。
これらの分類子をニューラル タンジェント エキスパートと呼び、ラベル全体で有効な確率分布を出力することを示します。
次に、過去のデータから各専門家の尤度と事後確率を導き出します。
驚くべきことに、これらの専門家の事後更新は、ネットワークの重みに対する確率的勾配降下法 (SGD) のスケーリングおよび投影形式と同等であることがわかりました。
怠惰な体制から離れて、ネットワークは時間の経過とともに改善される適応専門家のアンサンブルとして見ることができます。
これらの結果は、専門家のベイズアンサンブルとしてのニューラル ネットワークの新しい解釈を提供し、継続的な学習環境における壊滅的な忘却を理解し、軽減するための原則に基づいたフレームワークを提供します。

要約(オリジナル)

A natural strategy for continual learning is to weigh a Bayesian ensemble of fixed functions. This suggests that if a (single) neural network could be interpreted as an ensemble, one could design effective algorithms that learn without forgetting. To realize this possibility, we observe that a neural network classifier with N parameters can be interpreted as a weighted ensemble of N classifiers, and that in the lazy regime limit these classifiers are fixed throughout learning. We term these classifiers the neural tangent experts and show they output valid probability distributions over the labels. We then derive the likelihood and posterior probability of each expert given past data. Surprisingly, we learn that the posterior updates for these experts are equivalent to a scaled and projected form of stochastic gradient descent (SGD) over the network weights. Away from the lazy regime, networks can be seen as ensembles of adaptive experts which improve over time. These results offer a new interpretation of neural networks as Bayesian ensembles of experts, providing a principled framework for understanding and mitigating catastrophic forgetting in continual learning settings.

arxiv情報

著者 Ari S. Benjamin,Christian Pehle,Kyle Daruwalla
発行日 2024-08-30 16:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク