要約
基礎モデルの時代において、我々は継続的学習(Continual Learning: CL)を再考する。これは、ビジョントランスフォーマー(Vision Transformer: ViTs)が時間とともに新しいタスクを学習できるようにすることを目的としている。しかし、このようなモデルの規模が大きくなるにつれて、特にタスク間でドメインが大きくシフトしている場合には、壊滅的な忘却が依然として根強い課題となっている。最近の研究では、CL技術と、低ランク適応(LoRA)のような、下流のタスクに適応するために訓練可能なパラメータの小さなセットのみを微調整することに焦点を当てたパラメータ効率的微調整(PEFT)とのクロスオーバーが強調されている。LoRAは収束が早く、学習可能なパラメータが少なくて済むが、継続的学習の文脈ではほとんど研究されていない。このギャップを解決するために、我々はデュアル低ランク適応(DualLoRA)と呼ばれる新しいPEFT-CL手法を提案する。これらのコンポーネントは、安定性と可塑性のバランスをとるために、動的メモリメカニズムによって編成される。直交LoRAアダプタのパラメータは、過去のタスクの直交部分空間で更新され、壊滅的な忘却を軽減する。一方、残差LoRAアダプタのパラメータは、タスク間の相互作用なしに、タスク固有ベースによってスパンされる残差部分空間で更新され、新しいタスクを微調整するための補完的な能力を提供する。ViTベースのモデルにおいて、DualLoRAが既存のCL手法と比較して、精度、推論速度、メモリ効率において大きな優位性を持つことを、複数のベンチマークで実証する。
要約(オリジナル)
In the era of foundation models, we revisit continual learning~(CL), which aims to enable vision transformers (ViTs) to learn new tasks over time. However, as the scale of these models increases, catastrophic forgetting remains a persistent challenge, particularly in the presence of significant domain shifts across tasks. Recent studies highlight a crossover between CL techniques and parameter-efficient fine-tuning (PEFT), which focuses on fine-tuning only a small set of trainable parameters to adapt to downstream tasks, such as low-rank adaptation (LoRA). While LoRA achieves faster convergence and requires fewer trainable parameters, it has seldom been explored in the context of continual learning. To address this gap, we propose a novel PEFT-CL method called Dual Low-Rank Adaptation (DualLoRA), which introduces both an orthogonal LoRA adapter and a residual LoRA adapter parallel to pre-trained weights in each layer. These components are orchestrated by a dynamic memory mechanism to strike a balance between stability and plasticity. The orthogonal LoRA adapter’s parameters are updated in an orthogonal subspace of previous tasks to mitigate catastrophic forgetting, while the residual LoRA adapter’s parameters are updated in the residual subspace spanned by task-specific bases without interaction across tasks, offering complementary capabilities for fine-tuning new tasks. On ViT-based models, we demonstrate that DualLoRA offers significant advantages in accuracy, inference speed, and memory efficiency over existing CL methods across multiple benchmarks.
arxiv情報
著者 | Huancheng Chen,Jingtao Li,Nidham Gazagnadou,Weiming Zhuang,Chen Chen,Lingjuan Lyu |
発行日 | 2025-04-04 13:16:35+00:00 |
arxivサイト | arxiv_id(pdf) |