Class Balance Matters to Active Class-Incremental Learning

要約

少数ショットのクラス増分学習は、限られた注釈を使用して新しい概念を効率的に学習する際に顕著な効果を示しています。
それにもかかわらず、ヒューリスティックな少数ショットのアノテーションは、最も有益なサンプルを常にカバーしているわけではなく、増分学習者の能力を大幅に制限します。
私たちは、大規模なラベルなしデータのプールから開始して、増分学習のために最も有益なサンプルに注釈を付けることを目指しています。
この前提に基づいて、このホワイト ペーパーでは、Active Class-Incremental Learning (ACIL) を紹介します。
ACIL の目的は、ラベルのないプールから最も有益なサンプルを選択して増分学習者を効果的にトレーニングし、結果として得られるモデルのパフォーマンスを最大化することです。
標準的な能動学習アルゴリズムでは、注釈付きサンプル間のクラス不均衡な分布が問題となり、増分学習の能力が制限されることに注意してください。
選択されたサンプルのクラスバランスと情報提供性の両方を達成するために、クラスバランス選択 (CBS) 戦略を提案します。
具体的には、まずラベルのないすべての画像の特徴を複数のグループにクラスター化します。
次に、クラスターごとに貪欲な選択戦略を採用して、サンプリングされた特徴のガウス分布がクラスター内のすべてのラベルのない特徴のガウス分布と厳密に一致することを確認します。
当社の CBS は、プロンプト調整技術を備えた事前トレーニング済みモデルに基づく CIL メソッドにプラグインして実行できます。
5 つの多様なデータセットにわたる ACIL プロトコルに基づく広範な実験により、CBS がランダム選択アプローチと他の SOTA アクティブ ラーニング アプローチの両方よりも優れていることが実証されました。
コードは https://github.com/1170300714/CBS で公開されています。

要約(オリジナル)

Few-Shot Class-Incremental Learning has shown remarkable efficacy in efficient learning new concepts with limited annotations. Nevertheless, the heuristic few-shot annotations may not always cover the most informative samples, which largely restricts the capability of incremental learner. We aim to start from a pool of large-scale unlabeled data and then annotate the most informative samples for incremental learning. Based on this premise, this paper introduces the Active Class-Incremental Learning (ACIL). The objective of ACIL is to select the most informative samples from the unlabeled pool to effectively train an incremental learner, aiming to maximize the performance of the resulting model. Note that vanilla active learning algorithms suffer from class-imbalanced distribution among annotated samples, which restricts the ability of incremental learning. To achieve both class balance and informativeness in chosen samples, we propose Class-Balanced Selection (CBS) strategy. Specifically, we first cluster the features of all unlabeled images into multiple groups. Then for each cluster, we employ greedy selection strategy to ensure that the Gaussian distribution of the sampled features closely matches the Gaussian distribution of all unlabeled features within the cluster. Our CBS can be plugged and played into those CIL methods which are based on pretrained models with prompts tunning technique. Extensive experiments under ACIL protocol across five diverse datasets demonstrate that CBS outperforms both random selection and other SOTA active learning approaches. Code is publicly available at https://github.com/1170300714/CBS.

arxiv情報

著者 Zitong Huang,Ze Chen,Yuanze Li,Bowen Dong,Erjin Zhou,Yong Liu,Rick Siow Mong Goh,Chun-Mei Feng,Wangmeng Zuo
発行日 2024-12-09 16:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク