Multimodal Parameter-Efficient Few-Shot Class Incremental Learning

要約

Few-Shot Class Incremental Learning (FSCIL) は、数回の学習セッション中に利用できるトレーニング例が限られている、挑戦的な継続学習タスクです。
このタスクを成功させるには、少数ショットのトレーニング セットの偏った分布によって引き起こされる新しいクラスの過剰適合を回避する必要があります。
この問題に対処する一般的なアプローチには、古いクラスとの下位互換性のための特別なモジュールを追加することによって、事前定義されたバックボーン アーキテクチャの表現機能を強化することが含まれます。
ただし、このアプローチでは、長期にわたって高い分類精度を確保しながら、大規模なトレーニング セットと小規模なトレーニング セットで得られるパフォーマンスの差を縮小するというジレンマはまだ解決されていません。
この研究では、異なる学習セッション間の情報損失を減らすために、Continual Parameter-Efficient CLIP (CPE-CLIP) と呼ばれる代替アプローチを提案します。
情報損失に対処するために追加モジュールを適応させるのではなく、大規模な事前トレーニングで CLIP によって得られた膨大な知識と、新しい概念に一般化する際のその有効性を活用します。
私たちのアプローチはマルチモーダルでパラメーター効率が高く、言語エンコーダーとビジョンエンコーダーの両方の学習可能なプロンプトに依存して、セッションをまたがる転移学習を可能にします。
また、パフォーマンスを向上させ、忘れを防ぐために、プロンプト正則化も導入します。
私たちの実験結果は、CPE-CLIP が最先端の提案と比較して FSCIL のパフォーマンスを大幅に向上させると同時に、学習可能なパラメータの数とトレーニング コストを大幅に削減することを示しています。

要約(オリジナル)

Few-Shot Class Incremental Learning (FSCIL) is a challenging continual learning task, where limited training examples are available during several learning sessions. To succeed in this task, it is necessary to avoid over-fitting new classes caused by biased distributions in the few-shot training sets. The general approach to address this issue involves enhancing the representational capability of a pre-defined backbone architecture by adding special modules for backward compatibility with older classes. However, this approach has not yet solved the dilemma of ensuring high classification accuracy over time while reducing the gap between the performance obtained on larger training sets and the smaller ones. In this work, we propose an alternative approach called Continual Parameter-Efficient CLIP (CPE-CLIP) to reduce the loss of information between different learning sessions. Instead of adapting additional modules to address information loss, we leverage the vast knowledge acquired by CLIP in large-scale pre-training and its effectiveness in generalizing to new concepts. Our approach is multimodal and parameter-efficient, relying on learnable prompts for both the language and vision encoders to enable transfer learning across sessions. We also introduce prompt regularization to improve performance and prevent forgetting. Our experimental results demonstrate that CPE-CLIP significantly improves FSCIL performance compared to state-of-the-art proposals while also drastically reducing the number of learnable parameters and training costs.

arxiv情報

著者 Marco D’Alessandro,Alberto Alonso,Enrique Calabrés,Mikel Galar
発行日 2024-01-08 12:28:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク