TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning

要約

言語モデルの継続学習 (CL) は、再トレーニングせずに大規模言語モデル (LLM) を動的な現実世界のシナリオに適応させる機能として、最近大きな関心を集めています。
この領域における大きな課題は、モデルが新しいタスクを学習する際に以前に獲得した知識を失う壊滅的な忘却です。
既存のアプローチは一般に、タスク固有の知識を取得するために複数のパラメータ効率の良い微調整 (PEFT) ブロックを利用しますが、これらの方法は非効率的であり、タスク間での潜在的な知識の伝達を活用できません。
この論文では、メモリ再生に依存せずに知識伝達を促進する、Task Skill Localization and Consolidation (TaSL) という名前の言語モデル用の新しい CL フレームワークを紹介します。
TaSL は最初にパラメータの依存関係に基づいてモデルを「スキル ユニット」に分離し、より正確な制御を可能にします。
その後、新しいグループごとのスキル ローカリゼーション技術を採用して、新しいタスクのスキル ユニットの重要度の分布を確認します。
この重要度分布を以前のタスクの重要度分布と比較することで、タスク固有の知識を保持して忘れを防ぎ、タスク共有の知識を更新して双方向の知識の伝達を促進する、きめ細かいスキル統合戦略を実装します。
その結果、TaSL は、以前の知識を保持することと、新しいタスクで優れた能力を発揮することの間の最適なバランスを実現します。
TaSL は強力な汎用性も示しており、さまざまな基本モデルに適しており、LoRA などの PEFT 手法にも適応できます。
さらに、メモリ再生技術との統合による拡張機能をサポートする、顕著な拡張性を提供します。
220M から 7B パラメータの範囲のモデルを含む 2 つの CL ベンチマークで実施された包括的な実験により、さまざまな設定における TaSL とそのバリアントの有効性が確認されました。

要約(オリジナル)

Language model continual learning (CL) has recently attracted significant interest for its ability to adapt large language models (LLMs) to dynamic real-world scenarios without retraining. A major challenge in this domain is catastrophic forgetting, where models lose previously acquired knowledge upon learning new tasks. Existing approaches commonly utilize multiple parameter-efficient fine-tuning (PEFT) blocks to acquire task-specific knowledge, yet these methods are inefficient and fail to leverage potential knowledge transfer across tasks. In this paper, we introduce a novel CL framework for language models, named Task Skill Localization and Consolidation (TaSL), which boosts knowledge transfer without depending on memory replay. TaSL initially segregates the model into ‘skill units’ based on parameter dependencies, allowing for more precise control. Subsequently, it employs a novel group-wise skill localization technique to ascertain the importance distribution of skill units for a new task. By comparing this importance distribution with those from previous tasks, we implement a fine-grained skill consolidation strategy that retains task-specific knowledge, thereby preventing forgetting, and updates task-shared knowledge, which facilitates bi-directional knowledge transfer. As a result, TaSL achieves an optimal balance between retaining prior knowledge and excelling in new tasks. TaSL also demonstrates strong generalizability, making it suitable for various base models and adaptable to PEFT methods like LoRA. Furthermore, it offers notable extensibility, supporting enhancements through integration with memory replay techniques. Comprehensive experiments conducted on two CL benchmarks, involving models ranging from 220M to 7B parameters, affirm the effectiveness of TaSL and its variants across different settings.

arxiv情報

著者 Yujie Feng,Xu Chu,Yongxin Xu,Zexin Lu,Bo Liu,Philip S. Yu,Xiao-Ming Wu
発行日 2024-08-30 11:14:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク