$\textrm{D}^3\textrm{Former}$: Debiased Dual Distilled Transformer for Incremental Learning

要約

クラス漸増学習(CIL)では、学習段階ごとにクラスのグループがモデルに導入される。目標は、これまでに観測された全てのクラスに対して性能の良い統一的なモデルを学習することである。ビジョン変換器(Vision Transformer: ViT)が従来の分類設定において最近人気があることを考えると、その継続的な学習挙動を研究することは興味深い問題である。この研究では、CILのためのDebiased Dual Distilled Transformerを開発し、$textrm$と名付ける。提案するモデルは、ハイブリッドなネストしたViT設計を活用し、データ効率と小規模から大規模なデータセットへのスケーラビリティを確保する。最近のViTベースのCILアプローチとは対照的に、我々の$¥textrm{D}^3¥textrm{Former}$は、新しいタスクが学習されてもアーキテクチャを動的に拡張せず、多数の増分タスクに適している。CILの動作が改善された$textrm{D}^3,textrm{Former}$は、ViTの設計に2つの基本的な変更を加えたことによる。まず、漸増学習をロングテール分類問題として扱い、新しいクラスからの多数サンプルが、古いクラスで利用可能な限られた模範を大幅に上回るようにする。少数派の古いクラスに対するバイアスを避けるため、古いタスクに関連する表現を保持することに重点を置き、ロジットを動的に調整することを提案する。第二に、タスク間で学習が進むにつれて、空間的な注意マップの構成を保持することを提案する。これは、最も識別性の高い領域への注意を保持するようにモデルを拘束することで、壊滅的な忘却を減らすのに役立つ。この手法は、CIFAR-100、MNIST、SVHN、ImageNetデータセットのインクリメンタルバージョンで良好な結果を得ることができる。

要約(オリジナル)

In class incremental learning (CIL) setting, groups of classes are introduced to a model in each learning phase. The goal is to learn a unified model performant on all the classes observed so far. Given the recent popularity of Vision Transformers (ViTs) in conventional classification settings, an interesting question is to study their continual learning behaviour. In this work, we develop a Debiased Dual Distilled Transformer for CIL dubbed $\textrm{D}^3\textrm{Former}$. The proposed model leverages a hybrid nested ViT design to ensure data efficiency and scalability to small as well as large datasets. In contrast to a recent ViT based CIL approach, our $\textrm{D}^3\textrm{Former}$ does not dynamically expand its architecture when new tasks are learned and remains suitable for a large number of incremental tasks. The improved CIL behaviour of $\textrm{D}^3\textrm{Former}$ owes to two fundamental changes to the ViT design. First, we treat the incremental learning as a long-tail classification problem where the majority samples from new classes vastly outnumber the limited exemplars available for old classes. To avoid the bias against the minority old classes, we propose to dynamically adjust logits to emphasize on retaining the representations relevant to old tasks. Second, we propose to preserve the configuration of spatial attention maps as the learning progresses across tasks. This helps in reducing catastrophic forgetting by constraining the model to retain the attention on the most discriminative regions. $\textrm{D}^3\textrm{Former}$ obtains favorable results on incremental versions of CIFAR-100, MNIST, SVHN, and ImageNet datasets.

arxiv情報

著者 Abdelrahman Mohamed,Rushali Grandhe,KJ Joseph,Salman Khan,Fahad Khan
発行日 2022-09-06 12:10:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク