From Continual Learning to SGD and Back: Better Rates for Continual Linear Models

要約

私たちは、オーバーパラメーター化されたモデルが共同で実現可能なタスクのセットに順次適合される一般的な継続的な学習セットアップを理論的に研究します。
$ k $ iterations後の忘却、つまり、以前に見たタスクの損失を分析します。
連続的な線形モデルの場合、タスクに適合することは、修正された目的での単一の確率勾配降下(SGD)ステップに相当することを証明します。
実現可能な最小二乗セットアップで、新しい最後のSGD上限を開発します。これを活用して、継続的な学習のために新しい結果を導き出します。
$ t $タスクを超えるランダムな注文に焦点を当て、普遍的な忘却率を確立しますが、既存のレートは問題の次元または複雑さに依存します。
具体的には、置換による継続的な回帰では、$ o((d-r)/k)$から$ o(k^{ – 1/4}、\ sqrt {d-r}/k、\ sqrt {tr}/k))から$ o((d-r)/k)$から$ o(\ sqrt {tr}/k)を改善します。
さらに、交換せずにランダムなタスク順序の最初のレートを確立します。
得られた$ o(\ min(t^{-1/4}、(d-r)/t))$の得られた速度は、タスクの繰り返しなしでランダム化のみが十分に長いタスクシーケンスで壊滅的な忘却を防ぐことができることを初めて証明します。
最後に、分離可能なデータの継続的な線形分類のために、一致する$ o(k^{-1/4})$忘却率を証明します。
私たちのユニバーサルレートは、Block KaczmarzやPocsなどのより広範な投影方法に適用され、I.I.D。の下での損失収束を照らします。
ワンパス注文。

要約(オリジナル)

We theoretically study the common continual learning setup where an overparameterized model is sequentially fitted to a set of jointly realizable tasks. We analyze the forgetting, i.e., loss on previously seen tasks, after $k$ iterations. For continual linear models, we prove that fitting a task is equivalent to a single stochastic gradient descent (SGD) step on a modified objective. We develop novel last-iterate SGD upper bounds in the realizable least squares setup, which we then leverage to derive new results for continual learning. Focusing on random orderings over $T$ tasks, we establish universal forgetting rates, whereas existing rates depend on the problem dimensionality or complexity. Specifically, in continual regression with replacement, we improve the best existing rate from $O((d-r)/k)$ to $O(\min(k^{-1/4}, \sqrt{d-r}/k, \sqrt{Tr}/k))$, where $d$ is the dimensionality and $r$ the average task rank. Furthermore, we establish the first rate for random task orderings without replacement. The obtained rate of $O(\min(T^{-1/4}, (d-r)/T))$ proves for the first time that randomization alone, with no task repetition, can prevent catastrophic forgetting in sufficiently long task sequences. Finally, we prove a matching $O(k^{-1/4})$ forgetting rate for continual linear classification on separable data. Our universal rates apply for broader projection methods, such as block Kaczmarz and POCS, illuminating their loss convergence under i.i.d. and one-pass orderings.

arxiv情報

著者 Itay Evron,Ran Levinstein,Matan Schliserman,Uri Sherman,Tomer Koren,Daniel Soudry,Nathan Srebro
発行日 2025-05-27 16:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク