Knowledge Distillation with Representative Teacher Keys Based on Attention Mechanism for Image Classification Model Compression

要約

AIチップ(GPU、TPU、NPUなど)の向上とモノのインターネット(IoT)の急速な発展に伴い、いくつかのロバストディープニューラルネットワーク(DNN)は通常、数百万から数億のパラメータで構成されています。このような大規模なモデルは、低計算量・低容量ユニット(エッジデバイスなど)に直接展開するのに適していない可能性があります。知識蒸留法(KD)は、モデルのパラメータを効率的に削減する強力なモデル圧縮手法として最近認識されるようになりました。KDの中心的なコンセプトは、モデルサイズが教師モデルよりもはるかに小さい小さなモデル(すなわち、生徒モデル)をうまく学習させるための参考として、大きなモデル(すなわち、教師モデル)の特徴マップから有用な情報を抽出することである。これまで、教師モデルの中間層の特徴マップの情報を利用するKD手法が多く提案されてきましたが、その多くは、教師モデルと生徒モデルの特徴マップの類似性を考慮していませんでした。その結果、生徒モデルに無駄な情報を学習させてしまう可能性がある。そこで我々は、注目のメカニズムに着想を得て、特徴マップの類似性を考慮するだけでなく、無駄な情報をフィルタリングして、目標とする生徒モデルの性能を向上させる代表教師キー(RTK)という新たなKD手法を提案する。実験では、提案手法を複数の基幹ネットワーク(ResNet、WideResNetなど)とデータセット(CIFAR10、CIFAR100、SVHN、CINIC10など)を用いて検証した。その結果、我々の提案するRTKは、最先端の注意に基づくKD法の分類精度を効果的に向上させることができることがわかった。

要約(オリジナル)

With the improvement of AI chips (e.g., GPU, TPU, and NPU) and the fast development of the Internet of Things (IoT), some robust deep neural networks (DNNs) are usually composed of millions or even hundreds of millions of parameters. Such a large model may not be suitable for directly deploying on low computation and low capacity units (e.g., edge devices). Knowledge distillation (KD) has recently been recognized as a powerful model compression method to decrease the model parameters effectively. The central concept of KD is to extract useful information from the feature maps of a large model (i.e., teacher model) as a reference to successfully train a small model (i.e., student model) in which the model size is much smaller than the teacher one. Although many KD methods have been proposed to utilize the information from the feature maps of intermediate layers in the teacher model, most did not consider the similarity of feature maps between the teacher model and the student model. As a result, it may make the student model learn useless information. Inspired by the attention mechanism, we propose a novel KD method called representative teacher key (RTK) that not only considers the similarity of feature maps but also filters out the useless information to improve the performance of the target student model. In the experiments, we validate our proposed method with several backbone networks (e.g., ResNet and WideResNet) and datasets (e.g., CIFAR10, CIFAR100, SVHN, and CINIC10). The results show that our proposed RTK can effectively improve the classification accuracy of the state-of-the-art attention-based KD method.

arxiv情報

著者 Jun-Teng Yang,Sheng-Che Kao,Scott C. -H. Huang
発行日 2022-08-10 02:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク