Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective

要約

クラス増分学習 (CIL) アルゴリズムは、過去に学習したクラスを忘れることなく、徐々に到着するデータから新しいオブジェクト クラスを継続的に学習することを目的としています。
CIL アルゴリズムの一般的な評価プロトコルは、これまでに学習したすべてのクラスの平均テスト精度を測定することです。ただし、テスト精度を最大化することだけに焦点を当てても、必ずしも継続的に学習および更新する CIL アルゴリズムの開発につながるとは限らないと主張します。
表現は下流のタスクに転送される可能性があります。
そのために、CILアルゴリズムで学習させたニューラルネットワークモデルを、表現学習におけるさまざまな評価プロトコルを用いて実験的に解析し、新たな解析手法を提案します。
私たちの実験によると、ほとんどの最先端のアルゴリズムは高い安定性を優先し、学習された表現を大きく変更せず、場合によっては単純なベースラインよりも低品質の表現を学習することさえあります。
ただし、これらのアルゴリズムでは、線形プローブ用にトレーニングされた推定線形分類器によく似た分類器をモデルが学習できるため、それでも高いテスト精度を達成できることがわかります。
さらに、単一タスクの学習を含む最初のタスクで学習された基本モデルは、さまざまなアルゴリズム間でさまざまなレベルの表現品質を示し、この差異が CIL アルゴリズムの最終的なパフォーマンスに影響します。
したがって、CIL アルゴリズムのより多様な評価のための追加のレシピとして、表現レベルの評価を考慮する必要があることを提案します。

要約(オリジナル)

Class incremental learning (CIL) algorithms aim to continually learn new object classes from incrementally arriving data while not forgetting past learned classes. The common evaluation protocol for CIL algorithms is to measure the average test accuracy across all classes learned so far — however, we argue that solely focusing on maximizing the test accuracy may not necessarily lead to developing a CIL algorithm that also continually learns and updates the representations, which may be transferred to the downstream tasks. To that end, we experimentally analyze neural network models trained by CIL algorithms using various evaluation protocols in representation learning and propose new analysis methods. Our experiments show that most state-of-the-art algorithms prioritize high stability and do not significantly change the learned representation, and sometimes even learn a representation of lower quality than a naive baseline. However, we observe that these algorithms can still achieve high test accuracy because they enable a model to learn a classifier that closely resembles an estimated linear classifier trained for linear probing. Furthermore, the base model learned in the first task, which involves single-task learning, exhibits varying levels of representation quality across different algorithms, and this variance impacts the final performance of CIL algorithms. Therefore, we suggest that the representation-level evaluation should be considered as an additional recipe for more diverse evaluation for CIL algorithms.

arxiv情報

著者 Sungmin Cha,Jihwan Kwak,Dongsub Shim,Hyunwoo Kim,Moontae Lee,Honglak Lee,Taesup Moon
発行日 2024-06-25 17:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク