TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning

要約

言語モデルの継続学習 (CL) は、再トレーニングせずに大規模言語モデル (LLM) を動的な現実世界の環境に適応できる可能性があるため、最近大きな関心を集めています。
この分野の主な課題は、モデルが新しいタスクを学習するときに以前に取得した知識を失う壊滅的な忘却です。
既存の方法は一般に、複数のパラメータ効率の良い微調整 (PEFT) ブロックを使用して、各タスクのタスク固有の知識を取得しますが、これらのアプローチは効率性に欠け、タスクの相互作用を介した知識伝達の可能性を見落としています。
この論文では、メモリ再生に依存せずに知識伝達を強化する、Task Skill Localization and Consolidation (TaSL) と呼ばれる言語モデル用の新しい CL フレームワークを紹介します。
TaSL はまず、パラメーターの依存関係に基づいてモデルを「スキル ユニット」に分割し、より詳細な制御を可能にします。
次に、新しいグループごとのスキル ローカリゼーション技術を採用して、新しいタスクのスキル ユニットの重要度の分布を特定します。
この重要度分布を以前のタスクの重要度分布と比較することで、タスク固有の知識を保持して忘れを防ぎ、タスク共有の知識を更新して双方向の知識の伝達を促進する、きめ細かいスキル統合戦略を実装します。
その結果、TaSL は、以前の知識を保持することと、新しいタスクで優れた能力を発揮することの間の優れたバランスを実現します。
TaSL は強力な汎用性も示しており、一般的なモデルに適しており、LoRA のような PEFT 手法にカスタマイズ可能です。
さらに、顕著な拡張性を示し、メモリ再生との統合によりパフォーマンスをさらに向上させることができます。
さまざまなモデル サイズ (220M から 7B) を使用した 2 つの CL ベンチマークでの広範な実験により、さまざまな設定における TaSL とそのバリアントの有効性が実証されました。

要約(オリジナル)

Language model continual learning (CL) has recently garnered significant interest due to its potential to adapt large language models (LLMs) to dynamic real-world environments without re-training. A key challenge in this field is catastrophic forgetting, where models lose previously acquired knowledge when learning new tasks. Existing methods commonly employ multiple parameter-efficient fine-tuning (PEFT) blocks to acquire task-specific knowledge for each task, but these approaches lack efficiency and overlook the potential for knowledge transfer through task interaction. In this paper, we present a novel CL framework for language models called Task Skill Localization and Consolidation (TaSL), which enhances knowledge transfer without relying on memory replay. TaSL first divides the model into `skill units’ based on parameter dependencies, enabling more granular control. It then employs a novel group-wise skill localization technique to identify the importance distribution of skill units for a new task. By comparing this importance distribution with those from previous tasks, we implement a fine-grained skill consolidation strategy that retains task-specific knowledge, thereby preventing forgetting, and updates task-shared knowledge, which facilitates bi-directional knowledge transfer. As a result, TaSL achieves a superior balance between retaining previous knowledge and excelling in new tasks. TaSL also shows strong generalizability, suitable for general models and customizable for PEFT methods like LoRA. Additionally, it demonstrates notable extensibility, allowing integration with memory replay to further enhance performance. Extensive experiments on two CL benchmarks, with varying model sizes (from 220M to 7B), demonstrate the effectiveness of TaSL and its variants across different settings.

arxiv情報

著者 Yujie Feng,Xu Chu,Yongxin Xu,Zexin Lu,Bo Liu,Philip S. Yu,Xiao-Ming Wu
発行日 2024-08-09 17:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク