TinySubNets: An efficient and low capacity continual learning strategy

要約

継続的な学習(CL)は、最近の機械学習研究で牽引力を獲得する非常に関連性の高い設定です。
CL作品の中で、新しいタスクが提示されているため、モデルアーキテクチャを適応させる可能性があるため、建築およびハイブリッド戦略が特に効果的です。
ただし、多くの既存のソリューションは、モデルのスパースを効率的に活用せず、利用可能なウェイトの非効率的な使用により容量飽和をもたらす傾向があり、学習可能なタスクの数を制限します。
このホワイトペーパーでは、さまざまなスパースレベル、適応量子化、および重量共有と剪定のユニークな組み合わせを通じて問題に対処する新しい建築CL戦略であるTinysubnets(TSN)を提案します。
Pruningは、モデルのパフォーマンスを維持する重みのサブセットを識別し、将来のタスクで利用可能なより少ないウェイトを利用できます。
適応量子化により、単一の重量を複数の部品に分離することができ、これを異なるタスクに割り当てることができます。
タスク間の重量共有は、容量とタスクの類似性の活用を高め、モデルの精度と容量の間のより良いトレードオフを特定できるようにします。
これらの機能により、TSNは利用可能な容量を効率的に活用し、知識移転を強化し、計算リソースの消費を削減できます。
一般的なベンチマークCLデータセットとシナリオを含む実験結果は、提案された戦略が、既存の最先端のCL戦略よりも精度の観点からより良い結果を達成することを示しています。
さらに、私たちの戦略は、モデル容量の活用が大幅に改善されることが示されています。
リリースされたコード:https://github.com/lifelonglab/tinysubnets。

要約(オリジナル)

Continual Learning (CL) is a highly relevant setting gaining traction in recent machine learning research. Among CL works, architectural and hybrid strategies are particularly effective due to their potential to adapt the model architecture as new tasks are presented. However, many existing solutions do not efficiently exploit model sparsity, and are prone to capacity saturation due to their inefficient use of available weights, which limits the number of learnable tasks. In this paper, we propose TinySubNets (TSN), a novel architectural CL strategy that addresses the issues through the unique combination of pruning with different sparsity levels, adaptive quantization, and weight sharing. Pruning identifies a subset of weights that preserve model performance, making less relevant weights available for future tasks. Adaptive quantization allows a single weight to be separated into multiple parts which can be assigned to different tasks. Weight sharing between tasks boosts the exploitation of capacity and task similarity, allowing for the identification of a better trade-off between model accuracy and capacity. These features allow TSN to efficiently leverage the available capacity, enhance knowledge transfer, and reduce computational resource consumption. Experimental results involving common benchmark CL datasets and scenarios show that our proposed strategy achieves better results in terms of accuracy than existing state-of-the-art CL strategies. Moreover, our strategy is shown to provide a significantly improved model capacity exploitation. Code released at: https://github.com/lifelonglab/tinysubnets.

arxiv情報

著者 Marcin Pietroń,Kamil Faber,Dominik Żurek,Roberto Corizzo
発行日 2025-02-25 16:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク