CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning

要約

トランスフォーマーや CLIP などのビジョン言語モデル (VLM) の出現により、事前トレーニングされた大規模なモデルが継続学習シナリオのパフォーマンスを向上させるための一般的な戦略になりました。
これにより、致命的な忘れに陥ることなく、トランスベースのモデルを効果的に微調整するための数多くのプロンプト戦略が開発されました。
ただし、これらの方法では、事前トレーニングから大幅に逸脱し、ゼロショット機能を維持しながらモデルをドメインに特化するのが困難です。
この研究では、増分プロンプト学習のための継続的生成トレーニングを提案します。これは、生成再生を利用してプロンプトをタスクに合わせる、VLM を適応させながら忘れ物を軽減する新しいアプローチです。
また、CL ベンチマーク内のゼロショット機能を評価するための新しい指標も導入します。
さまざまなドメインでの広範な実験を通じて、ゼロショット機能を向上させながら新しいタスクに適応するフレームワークの有効性を実証しました。
さらなる分析により、私たちのアプローチが共同プロンプトチューニングでギャップを埋めることができることが明らかになりました。
コードベースは https://github.com/aimagelab/mammoth で入手できます。

要約(オリジナル)

With the emergence of Transformers and Vision-Language Models (VLMs) such as CLIP, large pre-trained models have become a common strategy to enhance performance in Continual Learning scenarios. This led to the development of numerous prompting strategies to effectively fine-tune transformer-based models without succumbing to catastrophic forgetting. However, these methods struggle to specialize the model on domains significantly deviating from the pre-training and preserving its zero-shot capabilities. In this work, we propose Continual Generative training for Incremental prompt-Learning, a novel approach to mitigate forgetting while adapting a VLM, which exploits generative replay to align prompts to tasks. We also introduce a new metric to evaluate zero-shot capabilities within CL benchmarks. Through extensive experiments on different domains, we demonstrate the effectiveness of our framework in adapting to new tasks while improving zero-shot capabilities. Further analysis reveals that our approach can bridge the gap with joint prompt tuning. The codebase is available at https://github.com/aimagelab/mammoth.

arxiv情報

著者 Emanuele Frascaroli,Aniello Panariello,Pietro Buzzega,Lorenzo Bonicelli,Angelo Porrello,Simone Calderara
発行日 2024-07-22 16:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク