要約
継続学習のためのパラメーター効率の良い微調整 (PEFT-CL) は、致命的な忘却の問題を軽減しながら、事前トレーニングされたモデルを逐次タスクに適応させるのに有望であることが示されています。
しかし、このパラダイムにおける継続的なパフォーマンスを左右するメカニズムを理解することは依然として困難です。
この複雑さに対処するために、ニューラル タンジェント カーネル (NTK) 理論を使用して、PEFT-CL ダイナミクスの厳密な分析を実施し、継続的なシナリオに関連するメトリクスを導き出します。
数学的分析ツールとして NTK を利用して、テスト時の忘れという課題をトレーニング中の定量化可能な汎化ギャップに再設定し、これらのギャップと PEFT-CL のパフォーマンスに影響を与える 3 つの重要な要素 (トレーニング サンプル サイズ、タスク) を特定しました。
レベル特徴の直交性と正則化。
これらの課題に対処するために、タスク関連の機能を適応的に生成しながら、タスク固有のパラメーター ストレージを排除する新しいフレームワークである NTK-CL を導入します。
理論的ガイダンスに沿って、NTK-CL は各サンプルの特徴表現を 3 倍にし、理論的および経験的にタスク間の相互作用とタスク固有の一般化ギャップの大きさを削減します。
NTK 分析に基づいた私たちのアプローチは、適応指数移動平均メカニズムとタスク レベルの特徴の直交性に対する制約を課し、タスク内の NTK フォームを維持しながらタスク間の NTK フォームを減衰させます。
最終的に、NTK-CL は、適切な正則化を使用して最適化可能なパラメーターを微調整することにより、確立された PEFT-CL ベンチマークで最先端のパフォーマンスを達成します。
この研究は、PEFT-CL モデルを理解して改善するための理論的基盤を提供し、特徴表現、タスクの直交性、一般化の間の相互作用についての洞察を提供し、より効率的な継続学習システムの開発に貢献します。
要約(オリジナル)
Parameter-efficient fine-tuning for continual learning (PEFT-CL) has shown promise in adapting pre-trained models to sequential tasks while mitigating catastrophic forgetting problem. However, understanding the mechanisms that dictate continual performance in this paradigm remains elusive. To tackle this complexity, we undertake a rigorous analysis of PEFT-CL dynamics to derive relevant metrics for continual scenarios using Neural Tangent Kernel (NTK) theory. With the aid of NTK as a mathematical analysis tool, we recast the challenge of test-time forgetting into the quantifiable generalization gaps during training, identifying three key factors that influence these gaps and the performance of PEFT-CL: training sample size, task-level feature orthogonality, and regularization. To address these challenges, we introduce NTK-CL, a novel framework that eliminates task-specific parameter storage while adaptively generating task-relevant features. Aligning with theoretical guidance, NTK-CL triples the feature representation of each sample, theoretically and empirically reducing the magnitude of both task-interplay and task-specific generalization gaps. Grounded in NTK analysis, our approach imposes an adaptive exponential moving average mechanism and constraints on task-level feature orthogonality, maintaining intra-task NTK forms while attenuating inter-task NTK forms. Ultimately, by fine-tuning optimizable parameters with appropriate regularization, NTK-CL achieves state-of-the-art performance on established PEFT-CL benchmarks. This work provides a theoretical foundation for understanding and improving PEFT-CL models, offering insights into the interplay between feature representation, task orthogonality, and generalization, contributing to the development of more efficient continual learning systems.
arxiv情報
著者 | Jingren Liu,Zhong Ji,YunLong Yu,Jiale Cao,Yanwei Pang,Jungong Han,Xuelong Li |
発行日 | 2024-07-24 09:30:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google