Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free Continual Learning

要約

この研究では、忘れを防ぐことを目的として、正則化戦略として知識蒸留 (KD) を使用した見本なしのクラス増分学習 (CIL) を調査します。
KD ベースの手法は CIL でうまく使用されていますが、以前のタスクからのトレーニング データのサンプルにアクセスせずにモデルを正規化するのに苦労することがよくあります。
私たちの分析により、この問題は、分布外のデータを扱う際の教師ネットワークにおける大幅な表現の変化に起因していることが明らかになりました。
これにより、KD 損失コンポーネントに大きな誤差が発生し、CIL のパフォーマンス低下につながります。
最近のテスト時の適応方法からインスピレーションを得て、増分トレーニング中に教師とメイン モデルを同時に更新する方法である教師適応 (TA) を紹介します。
私たちの手法は、KD ベースの CIL アプローチとシームレスに統合されており、複数のイグザンプラフリー CIL ベンチマークにわたってパフォーマンスを一貫して向上させることができます。

要約(オリジナル)

In this work, we investigate exemplar-free class incremental learning (CIL) with knowledge distillation (KD) as a regularization strategy, aiming to prevent forgetting. KD-based methods are successfully used in CIL, but they often struggle to regularize the model without access to exemplars of the training data from previous tasks. Our analysis reveals that this issue originates from substantial representation shifts in the teacher network when dealing with out-of-distribution data. This causes large errors in the KD loss component, leading to performance degradation in CIL. Inspired by recent test-time adaptation methods, we introduce Teacher Adaptation (TA), a method that concurrently updates the teacher and the main model during incremental training. Our method seamlessly integrates with KD-based CIL approaches and allows for consistent enhancement of their performance across multiple exemplar-free CIL benchmarks.

arxiv情報

著者 Filip Szatkowski,Mateusz Pyla,Marcin Przewięźlikowski,Sebastian Cygert,Bartłomiej Twardowski,Tomasz Trzciński
発行日 2023-08-18 13:22:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク