Neural Collapse Terminus: A Unified Solution for Class Incremental Learning and Its Variants

要約

古いクラスに対する学習能力を維持しつつ、新しいクラスに対する学習能力をいかに向上させるかは、クラス漸増学習における重要な課題である。また、通常の場合だけでなく、実世界でよく見られるデータ不均衡やデータ不足を考慮したロングテールクラス漸増学習や少数ショットクラス漸増学習も提案されており、よく知られた壊滅的忘却の問題をさらに悪化させている。既存の手法は、3つのタスクのうちの1つに特化して提案されている。本論文では、3つのタスクにおけるミスアライメントのジレンマに対する統一的な解決策を提案する。具体的には、ラベル空間全体のクラス間分離を最大にする固定構造である神経崩壊終端を提案する。これは、特徴空間を漸進的に分割することを避けるために、漸進的学習を通して一貫したターゲットとして機能する。CILとLTCILについては、さらに、バックボーン特徴を我々の神経崩壊終端へスムーズに送り込むための、プロトタイプ進化スキームを提案する。本手法はFSCILに対してもわずかな改良を加えるだけで有効である。理論的解析から、本手法はデータの不均衡やデータの不足に関わらず、漸進的にニューラル・コラプスの最適性を保持することが示される。また、本手法の一般化可能性を検証するために、クラスの総数や、各セッションのデータ分布が正規分布か、ロングテール分布か、少数点分布かわからない一般化ケースを設計する。複数のデータセットを用いた広範な実験を行い、3つのタスク全てと一般化されたケースに対する我々の統一解の有効性を実証する。

要約(オリジナル)

How to enable learnability for new classes while keeping the capability well on old classes has been a crucial challenge for class incremental learning. Beyond the normal case, long-tail class incremental learning and few-shot class incremental learning are also proposed to consider the data imbalance and data scarcity, respectively, which are common in real-world implementations and further exacerbate the well-known problem of catastrophic forgetting. Existing methods are specifically proposed for one of the three tasks. In this paper, we offer a unified solution to the misalignment dilemma in the three tasks. Concretely, we propose neural collapse terminus that is a fixed structure with the maximal equiangular inter-class separation for the whole label space. It serves as a consistent target throughout the incremental training to avoid dividing the feature space incrementally. For CIL and LTCIL, we further propose a prototype evolving scheme to drive the backbone features into our neural collapse terminus smoothly. Our method also works for FSCIL with only minor adaptations. Theoretical analysis indicates that our method holds the neural collapse optimality in an incremental fashion regardless of data imbalance or data scarcity. We also design a generalized case where we do not know the total number of classes and whether the data distribution is normal, long-tail, or few-shot for each coming session, to test the generalizability of our method. Extensive experiments with multiple datasets are conducted to demonstrate the effectiveness of our unified solution to all the three tasks and the generalized case.

arxiv情報

著者 Yibo Yang,Haobo Yuan,Xiangtai Li,Jianlong Wu,Lefei Zhang,Zhouchen Lin,Philip Torr,Dacheng Tao,Bernard Ghanem
発行日 2023-08-03 13:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク