ConPET: Continual Parameter-Efficient Tuning for Large Language Models

要約

継続的な学習には、古いタスクの致命的な忘れを最小限に抑えながら、新しく出現したタスクにモデルを継続的に適応させる必要があります。
これは、高い計算コスト、メモリ消費、および忘却の問題により、バニラのフルパラメータ調整を行う大規模言語モデル (LLM) にとって非常に困難です。
パラメータ効率的チューニング (PET) の成功に触発されて、我々は、タスク数に依存しないトレーニングの複雑さを持つ LLM の継続的タスク適応のための一般化可能なパラダイムである、継続的パラメータ効率的チューニング (ConPET) を提案します。
ConPET には、アプリケーション シナリオが異なる 2 つのバージョンが含まれています。
まず、静的 ConPET は、もともと比較的小規模なモデル向けに設計された以前の継続学習手法を、PET と動的再生戦略を通じて LLM に適応させることができます。これにより、チューニング コストが大幅に削減され、過剰適合と忘却の問題が軽減されます。
さらに、スケーラビリティを維持するために、Dynamic ConPET はさまざまなタスクに個別の PET モジュールを採用し、動的な最適な選択を行う PET モジュール セレクターを採用しています。
私たちの広範な実験では、静的 ConPET の適応により、以前の複数の方法で調整可能なパラメーターのスケールが 3,000 倍以上削減され、5 つの小さなベンチマークで PET のみのベースラインを少なくとも 5 ポイント上回りましたが、動的 ConPET は最大のベンチマークで利点を獲得しました。
データセット。
コードとデータセットは https://github.com/Raincleared-Song/ConPET で入手できます。

要約(オリジナル)

Continual learning necessitates the continual adaptation of models to newly emerging tasks while minimizing the catastrophic forgetting of old ones. This is extremely challenging for large language models (LLMs) with vanilla full-parameter tuning due to high computation costs, memory consumption, and forgetting issue. Inspired by the success of parameter-efficient tuning (PET), we propose Continual Parameter-Efficient Tuning (ConPET), a generalizable paradigm for continual task adaptation of LLMs with task-number-independent training complexity. ConPET includes two versions with different application scenarios. First, Static ConPET can adapt former continual learning methods originally designed for relatively smaller models to LLMs through PET and a dynamic replay strategy, which largely reduces the tuning costs and alleviates the over-fitting and forgetting issue. Furthermore, to maintain scalability, Dynamic ConPET adopts separate PET modules for different tasks and a PET module selector for dynamic optimal selection. In our extensive experiments, the adaptation of Static ConPET helps multiple former methods reduce the scale of tunable parameters by over 3,000 times and surpass the PET-only baseline by at least 5 points on five smaller benchmarks, while Dynamic ConPET gains its advantage on the largest dataset. The codes and datasets are available at https://github.com/Raincleared-Song/ConPET.

arxiv情報

著者 Chenyang Song,Xu Han,Zheni Zeng,Kuai Li,Chen Chen,Zhiyuan Liu,Maosong Sun,Tao Yang
発行日 2023-09-26 08:52:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク