A Unified Continual Learning Framework with General Parameter-Efficient Tuning

要約

「事前トレーニング $\rightarrow$ ダウンストリーム適応」は、継続的学習 (CL) の新しい機会と課題の両方を提示します。
CL の最近の最先端技術は Parameter-Efficient-Tuning (PET) 適応パラダイムによって達成されていますが、プロンプトのみが調査されており、その適用はトランスフォーマーのみに制限されています。
この論文では、プロンプティングを PET の 1 つのインスタンス化として位置付け、Learning-Accumulation-Ensemble (LAE) と呼ばれる、一般的な PET との統一された CL フレームワークを提案します。
たとえば、アダプター、LoRA、またはプレフィックスを使用する PET は、事前トレーニング済みのモデルを、より少ないパラメーターとリソースでダウンストリーム タスクに適応させることができます。
PET メソッドが与えられた場合、LAE フレームワークはそれを CL に 3 つの新しいデザインで組み込みます。
1) 学習: 事前にトレーニングされたモデルは、オンライン PET モジュールを調整することによって新しいタスクに適応し、さまざまな PET モジュールを調整するための適応速度のキャリブレーションを行います。2) 蓄積: オンライン PET モジュールによって学習されたタスク固有の知識が蓄積されます。
3) アンサンブル: 推論中に、予測アンサンブル用のオンライン/オフライン PET モジュール (新規/歴史的タスクで好まれる) を持つ 2 つのエキスパートをそれぞれ構築します。
LAE が一連の PET メソッドと互換性があり、強力な CL 機能を獲得することを示します。
たとえば、Adapter PET を使用した LAE は、CIFAR100 および ImageNet-R データセットの最終増分精度で、それぞれ 1.3% および 3.6% だけ従来の最先端技術を上回っています。

要約(オリジナル)

The ‘pre-training $\rightarrow$ downstream adaptation’ presents both new opportunities and challenges for Continual Learning (CL). Although the recent state-of-the-art in CL is achieved through Parameter-Efficient-Tuning (PET) adaptation paradigm, only prompt has been explored, limiting its application to Transformers only. In this paper, we position prompting as one instantiation of PET, and propose a unified CL framework with general PET, dubbed as Learning-Accumulation-Ensemble (LAE). PET, e.g., using Adapter, LoRA, or Prefix, can adapt a pre-trained model to downstream tasks with fewer parameters and resources. Given a PET method, our LAE framework incorporates it for CL with three novel designs. 1) Learning: the pre-trained model adapts to the new task by tuning an online PET module, along with our adaptation speed calibration to align different PET modules, 2) Accumulation: the task-specific knowledge learned by the online PET module is accumulated into an offline PET module through momentum update, 3) Ensemble: During inference, we respectively construct two experts with online/offline PET modules (which are favored by the novel/historical tasks) for prediction ensemble. We show that LAE is compatible with a battery of PET methods and gains strong CL capability. For example, LAE with Adaptor PET surpasses the prior state-of-the-art by 1.3% and 3.6% in last-incremental accuracy on CIFAR100 and ImageNet-R datasets, respectively.

arxiv情報

著者 Qiankun Gao,Chen Zhao,Yifan Sun,Teng Xi,Gang Zhang,Bernard Ghanem,Jian Zhang
発行日 2023-03-17 15:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク