要約
実用的なニューラルネットワークは、継続的に新しいデータが流入する状況下で展開されることが多いため、以前に学習した重みでネットワークを初期化するウォームスタート型ニューラルネットワーク学習は魅力的である。しかし、ネットワークが新しい情報を学習する能力を失う可塑性の喪失につながることが多く、その結果、ゼロから学習するよりも汎化が悪化する。この現象は定常的なデータ分布の下でも起こり、その根本的なメカニズムはよくわかっていない。我々は、実世界のニューラルネットワーク学習をエミュレートするフレームワークを開発し、定常データ上でウォームスタートした場合に可塑性が失われる主な原因として、ノイズの記憶化を特定する。これを動機として、学習した特徴を保持しながら、記憶されたノイズを選択的に忘れることによって可塑性の損失を軽減することを目的とした手法であるDirection-Aware SHrinking (DASH)を提案する。本手法を視覚タスクで検証し、テスト精度と学習効率の向上を実証する。
要約(オリジナル)
Warm-starting neural network training by initializing networks with previously learned weights is appealing, as practical neural networks are often deployed under a continuous influx of new data. However, it often leads to loss of plasticity, where the network loses its ability to learn new information, resulting in worse generalization than training from scratch. This occurs even under stationary data distributions, and its underlying mechanism is poorly understood. We develop a framework emulating real-world neural network training and identify noise memorization as the primary cause of plasticity loss when warm-starting on stationary data. Motivated by this, we propose Direction-Aware SHrinking (DASH), a method aiming to mitigate plasticity loss by selectively forgetting memorized noise while preserving learned features. We validate our approach on vision tasks, demonstrating improvements in test accuracy and training efficiency.
arxiv情報
著者 | Baekrok Shin,Junsoo Oh,Hanseul Cho,Chulhee Yun |
発行日 | 2024-11-01 09:49:24+00:00 |
arxivサイト | arxiv_id(pdf) |