要約
既存の手法のいくつかの欠点を克服することを目的として、変分推論を使用したベイジアン ニューラル ネットワーク ベースの継続学習アルゴリズムを提案します。
具体的には、継続的な学習シナリオでは、知識を保持するために各ステップでネットワーク パラメーターを保存することが課題となります。
これは、特に過去のデータセットへのアクセスが制限されていることを考慮すると、壊滅的な忘却を軽減するという重要な必要性によってさらに悪化します。これにより、すべてのセッションにわたってネットワーク パラメーターとデータセット間の対応関係を維持することが困難になります。
KL 発散による変分推論を使用する現在の方法では、不確実なノード更新と特定のノードでの連動した中断中に壊滅的な忘却が発生するリスクがあります。
これらの課題に対処するために、私たちは次の戦略を提案します。
高密度層パラメータのストレージを削減するために、ストレージ要件を大幅に削減するパラメータ分布学習方法を提案します。
変分推論を採用した継続学習フレームワークにおいて、私たちの研究では、パラメータの平均と分散のダイナミクスと母集団を特にターゲットとする正則化項を導入しました。
この期間は、KL ダイバージェンスの利点を維持しながら、関連する課題に対処することを目的としています。
ネットワーク パラメーターとデータ間の適切な対応を保証するために、私たちの方法では、重要度に重み付けされた証拠下限項を導入して、データとパラメーターの相関関係を取得します。
これにより、共通および固有のパラメーターのハイパースペース ベースの保存が可能になります。
提案された方法は、効果的な後方および前方の知識伝達のための条件を備えて、パラメータ空間を共通の固有の部分空間に分割し、ネットワークとパラメータのデータセットの対応を明らかにします。
実験結果は、多様なデータセットおよび逐次データセットのさまざまな組み合わせにわたって私たちの方法が有効であることを示しており、既存のアプローチと比較して優れたパフォーマンスをもたらします。
要約(オリジナル)
We propose a Bayesian neural network-based continual learning algorithm using Variational Inference, aiming to overcome several drawbacks of existing methods. Specifically, in continual learning scenarios, storing network parameters at each step to retain knowledge poses challenges. This is compounded by the crucial need to mitigate catastrophic forgetting, particularly given the limited access to past datasets, which complicates maintaining correspondence between network parameters and datasets across all sessions. Current methods using Variational Inference with KL divergence risk catastrophic forgetting during uncertain node updates and coupled disruptions in certain nodes. To address these challenges, we propose the following strategies. To reduce the storage of the dense layer parameters, we propose a parameter distribution learning method that significantly reduces the storage requirements. In the continual learning framework employing variational inference, our study introduces a regularization term that specifically targets the dynamics and population of the mean and variance of the parameters. This term aims to retain the benefits of KL divergence while addressing related challenges. To ensure proper correspondence between network parameters and the data, our method introduces an importance-weighted Evidence Lower Bound term to capture data and parameter correlations. This enables storage of common and distinctive parameter hyperspace bases. The proposed method partitions the parameter space into common and distinctive subspaces, with conditions for effective backward and forward knowledge transfer, elucidating the network-parameter dataset correspondence. The experimental results demonstrate the effectiveness of our method across diverse datasets and various combinations of sequential datasets, yielding superior performance compared to existing approaches.
arxiv情報
著者 | Sanchar Palit,Biplab Banerjee,Subhasis Chaudhuri |
発行日 | 2024-11-21 15:11:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google