要約
現実世界のアプリケーションの多くでは、機械学習モデルが非定常データ分布に対処できるようにする必要があり、多くの場合、オンライン設定で長期間にわたって自律的に学習できます。
このシナリオにおける主な課題の 1 つは、いわゆる壊滅的な忘却 (CF) です。これにより、学習モデルは、古いタスクの予測劣化が発生する一方で、最新のタスクに集中する傾向があります。
オンライン設定では、最も効果的なソリューションは、固定サイズのメモリ バッファーを使用して、新しいタスクのトレーニング時の再生に使用される古いサンプルを保存します。
この問題に取り組むために多くのアプローチが提案されています。
しかし、メモリ管理のための予測不確実性情報を最も効果的な方法でどのように活用できるかは明らかではなく、メモリを設定するために矛盾する戦略が提案されています。
忘れやすいサンプルと覚えやすいサンプルはどちらが CF と戦うのに効果的ですか?
この研究は、予測不確実性が決定空間におけるサンプルの位置のアイデアを提供するという直観から出発して、さまざまな不確実性の推定値とメモリを設定するための戦略の詳細な分析を示しています。
この調査により、CF を軽減するためにデータ ポイントが持つべき特性をより深く理解できるようになります。
次に、負の対数尤度によって引き起こされる一般化分散を介して予測不確実性を推定するための代替方法を提案します。
最後に、予測不確実性尺度の使用がさまざまな設定で CF の削減に役立つことを示します。
要約(オリジナル)
Many real-world applications require machine-learning models to be able to deal with non-stationary data distributions and thus learn autonomously over an extended period of time, often in an online setting. One of the main challenges in this scenario is the so-called catastrophic forgetting (CF) for which the learning model tends to focus on the most recent tasks while experiencing predictive degradation on older ones. In the online setting, the most effective solutions employ a fixed-size memory buffer to store old samples used for replay when training on new tasks. Many approaches have been presented to tackle this problem. However, it is not clear how predictive uncertainty information for memory management can be leveraged in the most effective manner and conflicting strategies are proposed to populate the memory. Are the easiest-to-forget or the easiest-to-remember samples more effective in combating CF? Starting from the intuition that predictive uncertainty provides an idea of the samples’ location in the decision space, this work presents an in-depth analysis of different uncertainty estimates and strategies for populating the memory. The investigation provides a better understanding of the characteristics data points should have for alleviating CF. Then, we propose an alternative method for estimating predictive uncertainty via the generalised variance induced by the negative log-likelihood. Finally, we demonstrate that the use of predictive uncertainty measures helps in reducing CF in different settings.
arxiv情報
著者 | Giuseppe Serra,Ben Werner,Florian Buettner |
発行日 | 2024-07-10 13:51:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google