要約
継続学習(CL)に関する研究は、動的に変化するデータ分布から生じる問題に主に焦点を当ててきた。すなわち、(a)データ分布のシフト、(b)データがチャンクに分割され、どの時点でもデータの一部しか学習できないという事実への対処、である。この研究では、後者のサブ問題であるデータのチャンキングに注目し、CLの文献におけるチャンキングに関する過去の分析がまばらであることに注目する。チャンキングはCLの重要な部分であり、我々の実験ではオフライン学習による性能低下の約半分を占めていることを示す。さらに、我々の結果は、現在のCLアルゴリズムがチャンキングサブ問題に対処していないことを明らかにし、データ分布にシフトがない場合にのみ、通常のSGD学習と同等の性能を発揮する。我々は、学習がデータのチャンクで行われた場合に性能が低下する理由を分析し、分布のシフトによる問題と思われがちな忘却が依然として生じており、重要な問題であることを発見した。線形ケースの分析に動機づけられ、チャンク毎の重み平均がチャンキング設定における性能を向上させ、この性能が完全なCL設定に移行することを示す。従って、チャンキングに関する研究がCL全般の発展に役立つことを主張する。
要約(オリジナル)
Work on continual learning (CL) has largely focused on the problems arising from the dynamically-changing data distribution. However, CL can be decomposed into two sub-problems: (a) shifts in the data distribution, and (b) dealing with the fact that the data is split into chunks and so only a part of the data is available to be trained on at any point in time. In this work, we look at the latter sub-problem — the chunking of data — and note that previous analysis of chunking in the CL literature is sparse. We show that chunking is an important part of CL, accounting for around half of the performance drop from offline learning in our experiments. Furthermore, our results reveal that current CL algorithms do not address the chunking sub-problem, only performing as well as plain SGD training when there is no shift in the data distribution. We analyse why performance drops when learning occurs on chunks of data, and find that forgetting, which is often seen to be a problem due to distribution shift, still arises and is a significant problem. Motivated by an analysis of the linear case, we show that per-chunk weight averaging improves performance in the chunking setting and that this performance transfers to the full CL setting. Hence, we argue that work on chunking can help advance CL in general.
arxiv情報
著者 | Thomas L. Lee,Amos Storkey |
発行日 | 2023-10-03 17:04:33+00:00 |
arxivサイト | arxiv_id(pdf) |