SparseGrow: Addressing Growth-Induced Forgetting in Task-Agnostic Continual Learning

要約

継続学習 (CL) では、モデルの成長により新しいデータに対する適応性が強化され、より多くのタスクに対する知識の保持が向上します。
ただし、モデルが不適切に成長すると、以前に学習した知識が大幅に低下する可能性があります。これは、特に成長したモデル全体を推論に使用するタスク非依存型 CL において、成長誘発性忘却 (GIFt) と呼ばれる問題です。
既存の研究では、適応性を高めるためにモデルの成長とランダムな初期化を採用しているにもかかわらず、不適切なモデルの成長によって引き起こされるGIFtの存在を認識できないことがよくあります。
この見落としにより、忘却の包括的な制御が制限され、モデルの成長を最大限に活用することが妨げられます。
私たちは CL で最初にこの問題を特定し、GIFt の根本原因に関する詳細な調査を実施しました。GIFt では、モデルの機能に影響を与えることなくレイヤーを拡大する、モデル成長戦略の中でレイヤーの拡張が際立っています。
ただし、レイヤー拡張を直接採用することには課題が伴います。
適応性と知識の保持のバランスをとるための、データ駆動型の制御と拡張パラメータの初期化が欠けています。
このペーパーでは、新しいデータに対する適応性を高めながら GIFt の問題を克服するための新しい SparseGrow アプローチを紹介します。
SparseGrow は、データ駆動型のスパース レイヤー拡張を採用して、成長中の効率的なパラメーターの使用を制御し、過剰な成長や機能の変更による GIFt を削減します。
また、トレーニングの後期段階でスパース成長とデータ上の初期化を組み合わせて、学習された分布に適合する部分的に 0 値の拡張を作成し、保持と適応性を強化します。
忘却をさらに最小限に抑えるために、スパース マスクを計算することによってフリーズが適用され、重要なパラメーターのデータ駆動型の保存が可能になります。
さまざまな設定、ケース、タスク番号を使用したデータセットにわたる実験を通じて、レイヤー拡張の必要性を実証し、GIFt を克服する際の SparseGrow の有効性を示し、増分タスクに対する適応性と知識保持を強調します。

要約(オリジナル)

In continual learning (CL), model growth enhances adaptability over new data, improving knowledge retention for more tasks. However, improper model growth can lead to severe degradation of previously learned knowledge, an issue we name as growth-induced forgetting (GIFt), especially in task-agnostic CL using entire grown model for inference. Existing works, despite adopting model growth and random initialization for better adaptability, often fail to recognize the presence of GIFt caused by improper model growth. This oversight limits comprehensive control of forgetting and hinders full utilization of model growth. We are the first in CL to identify this issue and conduct an in-depth study on root cause of GIFt, where layer expansion stands out among model growth strategies, widening layers without affecting model functionality. Yet, direct adoption of layer expansion presents challenges. It lacks data-driven control and initialization of expanded parameters to balance adaptability and knowledge retention. This paper presents a novel SparseGrow approach to overcome the issue of GIFt while enhancing adaptability over new data. SparseGrow employs data-driven sparse layer expansion to control efficient parameter usage during growth, reducing GIFt from excessive growth and functionality changes. It also combines sparse growth with on-data initialization at training late-stage to create partially 0-valued expansions that fit learned distribution, enhancing retention and adaptability. To further minimize forgetting, freezing is applied by calculating the sparse mask, allowing data-driven preservation of important parameters. Through experiments across datasets with various settings, cases and task numbers, we demonstrate the necessity of layer expansion and showcase the effectiveness of SparseGrow in overcoming GIFt, highlighting its adaptability and knowledge retention for incremental tasks.

arxiv情報

著者 Yuqing Zhao,Divya Saxena,Jiannong Cao,Xiaoyun Liu,Changlin Song
発行日 2024-09-12 12:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク