CLIP model is an Efficient Continual Learner

要約

継続的な学習は、以前のタスクを忘れることなく、時間をかけて新しいタスクを学習することを目的としている。文献によれば、過去のタスクデータへのアクセスが限られている、あるいは全くできない状況で、この問題に取り組むための重要な取り組みがいくつか報告されている。その中で、典型的な解決策は、メモリ再生、知識抽出、モデル正則化、動的ネットワーク拡張を含む高度な技術を提供している。その結果、学習タスクごとに再学習コストが発生し、専用のメモリが必要となり、設定に依存した設計が必要となる。本研究では、CLIP(Contrastive Language-Image Pretraining)モデルが、微調整なしに驚異的な継続的学習性能を提供することを示す(ゼロショット評価)。CLIPは、クラス逐次学習、ドメイン逐次学習、タスク逐次学習などの様々な設定で、5つの有名ベンチマーク(ImageNet-100 & 1K、Corde50、CIFAR-100、TinyImageNet)において評価された。CLIPモデルは何の飾り気もなく、大半の設定において最先端の継続的学習アプローチを凌駕する性能を示す。我々は、単純なプロンプトテンプレートを用いてテキスト入力を変化させることで、CLIPモデルの性能に与える影響を示している。我々の知る限り、これはCLIPのゼロショット性能を継続的な設定で報告した最初の研究である。我々は、この強力でありながら恥ずかしいほど単純なベースラインを、今後の継続的学習課題における比較に用いることを提唱する。

要約(オリジナル)

The continual learning setting aims to learn new tasks over time without forgetting the previous ones. The literature reports several significant efforts to tackle this problem with limited or no access to previous task data. Among such efforts, typical solutions offer sophisticated techniques involving memory replay, knowledge distillation, model regularization, and dynamic network expansion. The resulting methods have a retraining cost at each learning task, dedicated memory requirements, and setting-specific design choices. In this work, we show that a frozen CLIP (Contrastive Language-Image Pretraining) model offers astounding continual learning performance without any fine-tuning (zero-shot evaluation). We evaluate CLIP under a variety of settings including class-incremental, domain-incremental and task-agnostic incremental learning on five popular benchmarks (ImageNet-100 & 1K, CORe50, CIFAR-100, and TinyImageNet). Without any bells and whistles, the CLIP model outperforms the state-of-the-art continual learning approaches in the majority of the settings. We show the effect on the CLIP model’s performance by varying text inputs with simple prompt templates. To the best of our knowledge, this is the first work to report the CLIP zero-shot performance in a continual setting. We advocate the use of this strong yet embarrassingly simple baseline for future comparisons in the continual learning tasks.

arxiv情報

著者 Vishal Thengane,Salman Khan,Munawar Hayat,Fahad Khan
発行日 2022-10-06 17:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク