Preventing Zero-Shot Transfer Degradation in Continual Learning of Vision-Language Models

要約

継続学習 (CL) を使用すると、事前トレーニング済みのビジョン言語モデルを、再トレーニングせずに新しいデータ分布またはトレーニング不足のデータ分布に効率的に適応させることができます。
それにもかかわらず、Contrastive Language-Image Pre-training (CLIP) モデルの継続的なトレーニング中に、壊滅的な忘却によりモデルのゼロショット伝達能力が大幅に低下することが観察されました。
既存の CL メソッドは、以前のデータを再生することで忘れを軽減できます。
ただし、CLIP データセットはプライベートであるため、再生メソッドは事前トレーニング データセットにアクセスできません。
さらに、以前に学習したダウンストリーム タスクのデータを再生すると、パフォーマンスを向上させることができますが、ゼロショット パフォーマンスが犠牲になります。
この課題に対処するために、特徴空間とパラメータ空間の両方でビジョン言語モデルの継続学習におけるゼロショット転送の劣化を防ぐ新しい方法 ZSCL を提案します。
特徴空間では、現在のモデルと初期モデルの間の蒸留のために参照データセットが導入されます。
参照データセットには意味的な多様性が必要ですが、ラベル付けしたり、事前トレーニングで確認したり、画像とテキストのペアを一致させたりする必要はありません。
パラメーター空間では、トレーニング中に重みを平均化することでパラメーターの大きなシフトを防ぎます。
私たちは、タスクが単一のデータセット内でクラス分けされるのではなく、さまざまなドメインからのものである、さまざまな方法を評価するための、より困難なマルチドメイン タスク増分学習 (MTIL) ベンチマークを提案します。
私たちの方法は、従来のクラス増分学習設定および MTIL において他の方法よりも平均スコア 9.7% 優れています。
私たちのコードは https://github.com/Thunderbeee/ZSCL にあります。

要約(オリジナル)

Continual learning (CL) can help pre-trained vision-language models efficiently adapt to new or under-trained data distributions without re-training. Nevertheless, during the continual training of the Contrastive Language-Image Pre-training (CLIP) model, we observe that the model’s zero-shot transfer ability significantly degrades due to catastrophic forgetting. Existing CL methods can mitigate forgetting by replaying previous data. However, since the CLIP dataset is private, replay methods cannot access the pre-training dataset. In addition, replaying data of previously learned downstream tasks can enhance their performance but comes at the cost of sacrificing zero-shot performance. To address this challenge, we propose a novel method ZSCL to prevent zero-shot transfer degradation in the continual learning of vision-language models in both feature and parameter space. In the feature space, a reference dataset is introduced for distillation between the current and initial models. The reference dataset should have semantic diversity but no need to be labeled, seen in pre-training, or matched image-text pairs. In parameter space, we prevent a large parameter shift by averaging weights during the training. We propose a more challenging Multi-domain Task Incremental Learning (MTIL) benchmark to evaluate different methods, where tasks are from various domains instead of class-separated in a single dataset. Our method outperforms other methods in the traditional class-incremental learning setting and the MTIL by 9.7% average score. Our code locates at https://github.com/Thunderbeee/ZSCL.

arxiv情報

著者 Zangwei Zheng,Mingyuan Ma,Kai Wang,Ziheng Qin,Xiangyu Yue,Yang You
発行日 2023-08-11 15:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク