要約
クラス増分学習 (CIL) は、古いクラスを忘れることなく、新しいクラスに適応することを目的としています。
従来の CIL モデルはゼロからトレーニングされ、データの進化に応じて知識を継続的に取得します。
最近、事前トレーニングが大幅に進歩し、膨大な事前トレーニング済みモデル (PTM) が CIL で利用できるようになりました。
従来の方法とは対照的に、PTM は簡単に転送できる一般化可能な埋め込みを備えています。
この作業では、PTM を使用して CIL を再検討し、CIL のコア要因は、モデルの更新に対する適応性と知識の伝達に対する一般化可能性であると主張します。
1) 最初に、凍結された PTM が既に CIL の一般化可能な埋め込みを提供できることを明らかにします。
驚くべきことに、PTM の分類子をプロトタイプ機能に継続的に設定する単純なベースライン (SimpleCIL) は、ダウンストリーム タスクのトレーニングを行わなくても、最先端の技術を打ち負かすことができます。
2) 事前トレーニング済みのデータセットと下流のデータセットの間の分布のギャップにより、PTM は、モデルの適応による適応性でさらに育成できます。
ADapt And Merge (ADAM) を提案します。これは、PTM の埋め込みと、分類子構築用の適応モデルを集約します。
ADAM は、PTM の一般化可能性と適応モデルの適応性の利点を保持する、任意のパラメーター効率の高いチューニング方法と直交的に組み合わせることができる一般的なフレームワークです。
3) さらに、以前のベンチマークは、データの重複により PTM の時代には不適切であることがわかり、評価のために 4 つの新しいベンチマーク、すなわち ImageNet-A、ObjectNet、OmniBenchmark、および VTAB を提案します。
広範な実験により、統一された簡潔なフレームワークを使用した ADAM の有効性が検証されます。
要約(オリジナル)
Class-incremental learning (CIL) aims to adapt to emerging new classes without forgetting old ones. Traditional CIL models are trained from scratch to continually acquire knowledge as data evolves. Recently, pre-training has achieved substantial progress, making vast pre-trained models (PTMs) accessible for CIL. Contrary to traditional methods, PTMs possess generalizable embeddings, which can be easily transferred. In this work, we revisit CIL with PTMs and argue that the core factors in CIL are adaptivity for model updating and generalizability for knowledge transferring. 1) We first reveal that frozen PTM can already provide generalizable embeddings for CIL. Surprisingly, a simple baseline (SimpleCIL) which continually sets the classifiers of PTM to prototype features can beat state-of-the-art even without training on the downstream task. 2) Due to the distribution gap between pre-trained and downstream datasets, PTM can be further cultivated with adaptivity via model adapting. We propose ADapt And Merge (ADAM), which aggregates the embeddings of PTM and adapted models for classifier construction. ADAM is a general framework that can be orthogonally combined with any parameter-efficient tuning method, which holds the advantages of PTM’s generalizability and adapted model’s adaptivity. 3) Additionally, we find previous benchmarks are unsuitable in the era of PTM due to data overlapping and propose four new benchmarks for assessment, namely ImageNet-A, ObjectNet, OmniBenchmark, and VTAB. Extensive experiments validate the effectiveness of ADAM with a unified and concise framework.
arxiv情報
著者 | Da-Wei Zhou,Han-Jia Ye,De-Chuan Zhan,Ziwei Liu |
発行日 | 2023-03-13 17:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google