BECAME: BayEsian Continual Learning with Adaptive Model MErging

要約

継続的学習(CL)は、破滅的な忘却を軽減しながら、タスク間で段階的に学習することを目指す。CLにおける重要な課題は、安定性(以前の知識の保持)と可塑性(新しいタスクの学習)のバランスをとることである。代表的な勾配射影法は安定性を確保する一方で、可塑性を制限することが多い。モデルマージ技術は有望な解決策を提供するが、先行する方法は通常、経験的仮定と注意深く選択されたハイパーパラメータに依存している。本論文では、安定性と可塑性のトレードオフを強化するモデル併合の可能性を探り、その利点を強調する理論的洞察を提供する。具体的には、ベイズ継続学習原理を用いてマージメカニズムを再定式化し、タスクの多様な特性に適応する最適マージ係数の閉形式を導出する。本アプローチを検証するために、勾配射影と適応的併合の専門知識を相乗させたBECAMEと名付けた2段階のフレームワークを導入する。広範な実験により、我々のアプローチが最先端のCL手法や既存のマージ戦略を凌駕することが示された。

要約(オリジナル)

Continual Learning (CL) strives to learn incrementally across tasks while mitigating catastrophic forgetting. A key challenge in CL is balancing stability (retaining prior knowledge) and plasticity (learning new tasks). While representative gradient projection methods ensure stability, they often limit plasticity. Model merging techniques offer promising solutions, but prior methods typically rely on empirical assumptions and carefully selected hyperparameters. In this paper, we explore the potential of model merging to enhance the stability-plasticity trade-off, providing theoretical insights that underscore its benefits. Specifically, we reformulate the merging mechanism using Bayesian continual learning principles and derive a closed-form solution for the optimal merging coefficient that adapts to the diverse characteristics of tasks. To validate our approach, we introduce a two-stage framework named BECAME, which synergizes the expertise of gradient projection and adaptive merging. Extensive experiments show that our approach outperforms state-of-the-art CL methods and existing merging strategies.

arxiv情報

著者 Mei Li,Yuxiang Lu,Qinyan Dai,Suizhi Huang,Yue Ding,Hongtao Lu
発行日 2025-04-03 15:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク