Continual Learning with Transformers for Image Classification

要約

多くの実際のシナリオでは、機械学習モデルをトレーニングするためのデータが時間の経過とともに利用できるようになります。
しかし、ニューラルネットワークモデルは、過去に学んだことを忘れることなく、新しい概念を継続的に学ぶのに苦労しています。
この現象は壊滅的な忘却として知られており、保存できるデータの量や使用できる計算ソースが限られているなどの実際的な制約のために、防止するのが難しいことがよくあります。
さらに、トランスフォーマーなどの大規模なニューラルネットワークを最初からトレーニングするには、非常にコストがかかり、大量のトレーニングデータが必要になります。これは、対象のアプリケーションドメインでは利用できない場合があります。
最近の傾向は、パラメーターの拡張に基づく動的アーキテクチャーが継続的な学習で壊滅的な忘却を効率的に減らすことができることを示していますが、これには、増え続けるパラメーターのバランスを取り、タスク間で情報をほとんど共有しないように複雑な調整が必要です。
その結果、大きなオーバーヘッドなしに多数のタスクに拡張するのに苦労しています。
このホワイトペーパーでは、コンピュータビジョンドメインで、Adaptive Distillation of Adapters(ADA)と呼ばれる最近のソリューションを検証します。これは、テキスト分類タスクで事前にトレーニングされたトランスフォーマーとアダプターを使用して継続的な学習を実行するために開発されました。
さまざまな分類タスクで、この方法がモデルを再トレーニングしたり、時間の経過とともにモデルパラメータの数を増やしたりすることなく、優れた予測パフォーマンスを維持することを経験的に示します。
さらに、最先端の方法と比較して、推論時に大幅に高速化されます。

要約(オリジナル)

In many real-world scenarios, data to train machine learning models become available over time. However, neural network models struggle to continually learn new concepts without forgetting what has been learnt in the past. This phenomenon is known as catastrophic forgetting and it is often difficult to prevent due to practical constraints, such as the amount of data that can be stored or the limited computation sources that can be used. Moreover, training large neural networks, such as Transformers, from scratch is very costly and requires a vast amount of training data, which might not be available in the application domain of interest. A recent trend indicates that dynamic architectures based on an expansion of the parameters can reduce catastrophic forgetting efficiently in continual learning, but this needs complex tuning to balance the growing number of parameters and barely share any information across tasks. As a result, they struggle to scale to a large number of tasks without significant overhead. In this paper, we validate in the computer vision domain a recent solution called Adaptive Distillation of Adapters (ADA), which is developed to perform continual learning using pre-trained Transformers and Adapters on text classification tasks. We empirically demonstrate on different classification tasks that this method maintains a good predictive performance without retraining the model or increasing the number of model parameters over the time. Besides it is significantly faster at inference time compared to the state-of-the-art methods.

arxiv情報

著者 Beyza Ermis,Giovanni Zappella,Martin Wistuba,Aditya Rawal,Cedric Archambeau
発行日 2022-06-28 15:30:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク