要約
クラスインクリメンタル学習(CIL)により、学習システムは進化するデータストリームに継続的に適応することができます。
トレーニング前の進歩により、事前に訓練されたビジョン言語モデル(Clipなど)を活用することで、CILの有望な出発点が得られます。
ただし、Clipは、視覚的な埋め込みをクラス名に一致させ、言語を通じて伝えられる豊富なコンテキスト情報を見落とすことにより決定を下します。
たとえば、「CAT」の概念は、認識のために尾、毛皮、顔などの特徴に分解できます。
また、モデルは継続的に更新されているため、これらの詳細な機能はCILで上書きされ、補償のための外部知識が必要です。
この論文では、クリップベースのCIL用の外部知識インジェクション(エンジン)を紹介します。
データセットの外部からの知識移転を強化するために、視覚的およびテキストの両方のモダリティから有益な知識をコードするデュアルブランチインジェクションチューニングフレームワークを提案します。
視覚的なブランチは、視覚的特徴を豊かにするためにデータ増強によって強化され、テキストブランチはGPT-4を活用して識別記述子を書き直します。
このオンザフライの知識注入に加えて、推論中に予測結果を再ランクすることにより、調整後の知識も実装します。
挿入された知識により、モデルはデータが進化するにつれて、下流タスクの有益な機能をより適切にキャプチャできます。
広範な実験は、エンジンの最先端のパフォーマンスを示しています。
コードは、https://github.com/renaisscode/engineで入手できます
要約(オリジナル)
Class-Incremental Learning (CIL) enables learning systems to continuously adapt to evolving data streams. With the advancement of pre-training, leveraging pre-trained vision-language models (e.g., CLIP) offers a promising starting point for CIL. However, CLIP makes decisions by matching visual embeddings to class names, overlooking the rich contextual information conveyed through language. For instance, the concept of “cat” can be decomposed into features like tail, fur, and face for recognition. Besides, since the model is continually updated, these detailed features are overwritten in CIL, requiring external knowledge for compensation. In this paper, we introduce ExterNal knowledGe INjEction (ENGINE) for CLIP-based CIL. To enhance knowledge transfer from outside the dataset, we propose a dual-branch injection tuning framework that encodes informative knowledge from both visual and textual modalities. The visual branch is enhanced with data augmentation to enrich the visual features, while the textual branch leverages GPT-4 to rewrite discriminative descriptors. In addition to this on-the-fly knowledge injection, we also implement post-tuning knowledge by re-ranking the prediction results during inference. With the injected knowledge, the model can better capture informative features for downstream tasks as data evolves. Extensive experiments demonstrate the state-of-the-art performance of ENGINE. Code is available at: https://github.com/RenaissCode/ENGINE
arxiv情報
著者 | Da-Wei Zhou,Kai-Wen Li,Jingyi Ning,Han-Jia Ye,Lijun Zhang,De-Chuan Zhan |
発行日 | 2025-03-11 15:00:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google