Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters

要約

継続的な学習により、視覚言語モデルは、過去の全データセットにアクセスすることなく、継続的に新しい知識を獲得することができる。しかしながら、(i)生涯学習中のパラメータシフト、(ii)完全なモデルチューニングに伴う多大な計算負荷。本研究では、視覚言語モデルを用いた漸進学習における長期忘却を緩和するために、パラメータ効率の良い継続学習の枠組みを提示する。我々のアプローチでは、新しいタスクに対応したMoE(Mixture-of-Experts)アダプタの統合により、事前に訓練されたCLIPモデルを動的に拡張する。視覚言語モデルのゼロショット認識能力を維持するために、我々はさらに、分布内入力と分布外入力をそれぞれMoEアダプタと元のCLIPに自動的にルーティングする分布判別自動選択器(DDAS)を導入する。様々な設定における広範な実験を通して、我々の提案する手法は、パラメータトレーニングの負担を60%軽減すると同時に、一貫してこれまでの最先端アプローチを上回る。我々のコードは、https://github.com/JiazuoYu/MoE-Adapters4CL

要約(オリジナル)

Continual learning can empower vision-language models to continuously acquire new knowledge, without the need for access to the entire historical dataset. However, mitigating the performance degradation in large-scale models is non-trivial due to (i) parameter shifts throughout lifelong learning and (ii) significant computational burdens associated with full-model tuning. In this work, we present a parameter-efficient continual learning framework to alleviate long-term forgetting in incremental learning with vision-language models. Our approach involves the dynamic expansion of a pre-trained CLIP model, through the integration of Mixture-of-Experts (MoE) adapters in response to new tasks. To preserve the zero-shot recognition capability of vision-language models, we further introduce a Distribution Discriminative Auto-Selector (DDAS) that automatically routes in-distribution and out-of-distribution inputs to the MoE Adapter and the original CLIP, respectively. Through extensive experiments across various settings, our proposed method consistently outperforms previous state-of-the-art approaches while concurrently reducing parameter training burdens by 60%. Our code locates at https://github.com/JiazuoYu/MoE-Adapters4CL

arxiv情報

著者 Jiazuo Yu,Yunzhi Zhuge,Lu Zhang,Ping Hu,Dong Wang,Huchuan Lu,You He
発行日 2024-06-03 07:45:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク