On the Effectiveness of LayerNorm Tuning for Continual Learning in Vision Transformers

要約

最先端のリハーサル不要の継続学習方法は、ビジョン トランスフォーマーの特性を利用してタスク固有のプロンプトを学習し、壊滅的な物忘れを大幅に減らします。
ただし、学習されたパラメーターの数とパフォーマンスの間にはトレードオフがあり、そのようなモデルの計算コストが高くなります。
この取り組みでは、競争力のあるパフォーマンスを維持しながら、このコストを削減することを目指しています。
これは、タスク固有の正規化層を学習するという単純な転移学習のアイデアを再検討して拡張することで実現します。
具体的には、継続学習タスクごとに LayerNorm のスケールとバイアス パラメーターを調整し、タスク固有のキーと事前トレーニングされたモデルの出力の間の類似性に基づいて推論時にそれらを選択します。
推論中のパラメータの誤った選択に対して分類器を堅牢にするために、2 段階のトレーニング手順を導入します。最初にタスク固有のパラメータを最適化し、次に推論時の同じ選択手順で分類器をトレーニングします。
ImageNet-R と CIFAR-100 での実験では、私たちの方法が、計算コストが安くありながら、{最先端}よりも優れているか同等の結果を達成できることを示しています。

要約(オリジナル)

State-of-the-art rehearsal-free continual learning methods exploit the peculiarities of Vision Transformers to learn task-specific prompts, drastically reducing catastrophic forgetting. However, there is a tradeoff between the number of learned parameters and the performance, making such models computationally expensive. In this work, we aim to reduce this cost while maintaining competitive performance. We achieve this by revisiting and extending a simple transfer learning idea: learning task-specific normalization layers. Specifically, we tune the scale and bias parameters of LayerNorm for each continual learning task, selecting them at inference time based on the similarity between task-specific keys and the output of the pre-trained model. To make the classifier robust to incorrect selection of parameters during inference, we introduce a two-stage training procedure, where we first optimize the task-specific parameters and then train the classifier with the same selection procedure of the inference time. Experiments on ImageNet-R and CIFAR-100 show that our method achieves results that are either superior or on par with {the state of the art} while being computationally cheaper.

arxiv情報

著者 Thomas De Min,Massimiliano Mancini,Karteek Alahari,Xavier Alameda-Pineda,Elisa Ricci
発行日 2023-08-18 15:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク