要約
継続学習(Continual Learning:CL)とは、古い知識を忘れることなく、新しいタスクに以前のディープ・ニューラル・ネットワーク(Deep Neural Network:DNN)の知識を適応させることである。しかし、最新のCL技術は、手元のタスクに応じて適応できる新しいDNNモデルを設計するのではなく、既存のDNNモデルにメモリ機能を提供することに焦点を当てている。本論文では、フィードバック機構を用いて、現在のタスクに合わせた動的な注意機能をリアルタイムに生成する、新しいフィードバック連続学習ビジョン変換器(FCL-ViT)を紹介する。FCL-ViTは2つのフェーズで動作する。フェーズ1では、一般的な画像特徴が生成され、Transformerが現在の画像のどこに注意を向けるべきかを決定する。フェーズ2では、動的注意を活用するタスク固有の画像特徴が生成される。このため、調整可能な自己注意ブロック(TAB)とタスク固有ブロック(TSB)が導入され、それぞれ両フェーズで動作し、TABの注意を調整する役割を担う。FCL-ViTは、少数の学習可能なDNNパラメータを保持しながら、ベンチマーク手法と比較して、継続学習において最先端の性能を上回る。
要約(オリジナル)
Continual Learning (CL) involves adapting the prior Deep Neural Network (DNN) knowledge to new tasks, without forgetting the old ones. However, modern CL techniques focus on provisioning memory capabilities to existing DNN models rather than designing new ones that are able to adapt according to the task at hand. This paper presents the novel Feedback Continual Learning Vision Transformer (FCL-ViT) that uses a feedback mechanism to generate real-time dynamic attention features tailored to the current task. The FCL-ViT operates in two Phases. In phase 1, the generic image features are produced and determine where the Transformer should attend on the current image. In phase 2, task-specific image features are generated that leverage dynamic attention. To this end, Tunable self-Attention Blocks (TABs) and Task Specific Blocks (TSBs) are introduced that operate in both phases and are responsible for tuning the TABs attention, respectively. The FCL-ViT surpasses state-of-the-art performance on Continual Learning compared to benchmark methods, while retaining a small number of trainable DNN parameters.
arxiv情報
著者 | Anestis Kaimakamidis,Ioannis Pitas |
発行日 | 2024-12-03 15:48:33+00:00 |
arxivサイト | arxiv_id(pdf) |