Efficient Continual Learning with Low Memory Footprint For Edge Device

要約

継続学習(CL)は、動的な知識を継続的に獲得するための有用な手法です。
強力なクラウド プラットフォームは、カスタマイズされたレコメンデーション システムなど、CL の機能を最大限に発揮できますが、エッジ デバイスに対する同様のパーソナライズされた要件はほとんど無視されます。
この現象は、ニューラル ネットワークのトレーニングと CL の忘却の問題の克服に伴う膨大なリソースのオーバーヘッドに起因します。
このペーパーでは、これらのシナリオに焦点を当て、LightCL と呼ばれるコンパクトなアルゴリズムを提案します。
忘却を遅らせるためにすべてのタスク間で一般化可能性を獲得するために膨大なリソースを消費する他の CL 手法とは異なり、LightCL はニューラル ネットワーク内のすでに一般化されたコンポーネントのリソース消費を圧縮し、いくつかの追加リソースを使用して他の部分のメモリを向上させます。
まず、CL中の一般化可能性を追求するために、学習可塑性と記憶安定性という2つの新しい指標を提案します。
下位層と中間層は一般化可能性が高く、深い層はその逆であるという発見に基づいて、下位層と中間層を凍結することで $\textit{一般化可能性を維持}$ します。
次に、$\textit{特徴パターンの記憶}$ を実行して、以前のタスクの特徴抽出パターンを安定させ、より深い層での一般化性を向上させます。
実験的な比較では、LightCL は忘却の遅延において他の SOTA メソッドよりも優れており、最大 $\textbf{6.16$\times$}$ のメモリ フットプリントを削減し、効率の点で LightCL の優れたパフォーマンスを証明しています。
また、エッジ デバイスである Jetson Nano でのメソッドの効率も評価し、メソッドの実際的な有効性をさらに証明します。

要約(オリジナル)

Continual learning(CL) is a useful technique to acquire dynamic knowledge continually. Although powerful cloud platforms can fully exert the ability of CL,e.g., customized recommendation systems, similar personalized requirements for edge devices are almost disregarded. This phenomenon stems from the huge resource overhead involved in training neural networks and overcoming the forgetting problem of CL. This paper focuses on these scenarios and proposes a compact algorithm called LightCL. Different from other CL methods bringing huge resource consumption to acquire generalizability among all tasks for delaying forgetting, LightCL compress the resource consumption of already generalized components in neural networks and uses a few extra resources to improve memory in other parts. We first propose two new metrics of learning plasticity and memory stability to seek generalizability during CL. Based on the discovery that lower and middle layers have more generalizability and deeper layers are opposite, we $\textit{Maintain Generalizability}$ by freezing the lower and middle layers. Then, we $\textit{Memorize Feature Patterns}$ to stabilize the feature extracting patterns of previous tasks to improve generalizability in deeper layers. In the experimental comparison, LightCL outperforms other SOTA methods in delaying forgetting and reduces at most $\textbf{6.16$\times$}$ memory footprint, proving the excellent performance of LightCL in efficiency. We also evaluate the efficiency of our method on an edge device, the Jetson Nano, which further proves our method’s practical effectiveness.

arxiv情報

著者 Zeqing Wang,Fei Cheng,Kangye Ji,Bohu Huang
発行日 2024-07-17 14:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク