DAPT: A Dual Attention Framework for Parameter-Efficient Continual Learning of Large Language Models

要約

継続学習 (CL) 能力は、動的な世界に大規模言語モデル (LLM) を展開するために不可欠です。
パラメータ効率的チューニング(PET)に基づいて、既存の方法は、CLにおける壊滅的忘却(CF)と知識伝達(KT)の課題に対処するための学習モジュールと選択モジュールを考案します。
学習モジュールは、継続的に出現するタスクごとに個別の PET ブロックを割り当て、選択モジュール機能はテスト時に入力に対して正しいものを選択します。
ただし、両方のモジュールの設計には制限があり、CF と KT に同時に対処するために 2 つのモジュールを調整する可能性は無視されています。
この目的を達成するために、我々は、Dual Attentive Learning\&Selection モジュールを介して PET 学習と選択を調整するための、新しい Dual Attentive Framework を提案します。
2 つの CL ベンチマークに関する広範な実験により、CF に抵抗し、同時に KT を促進する DAPT の優位性が実証されました。
さらに、DAPT は、さまざまなモデル サイズ (770M から 11B) や目に見えないタスクに拡張するときに優位性を発揮します。

要約(オリジナル)

The continual learning (CL) ability is vital for deploying large language models (LLMs) in the dynamic world. Based on parameter-efficient tuning (PET), existing methods devise the learning module and the selection module to handle the challenges of catastrophic forgetting (CF) and knowledge transfer (KT) in CL. The learning module allocates separate PET blocks for each continually emerged task and the selection module function to choose the correct one for the input at testing time. However, there are limitations in their deigns of both modules and they ignore the potential of aligning the two module to address CF and KT simultaneously. To this end, we propose a novel Dual Attention Framework , to align the PET learning and selection via the Dual Attentive Learning\&Selection module. Extensive Experiments on two CL benchmarks demonstrate the superiority of DAPT to resist CF and facilitate KT at the same time. Moreover, DAPT exhibits the superiority when we scale it to different model sizes (from 770M to 11B) and unseen tasks.

arxiv情報

著者 Weixiang Zhao,Shilong Wang,Yulin Hu,Yanyan Zhao,Bing Qin,Xuanyu Zhang,Qing Yang,Dongliang Xu,Wanxiang Che
発行日 2024-01-16 11:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク