Knowledge Distillation with Representative Teacher Keys Based on Attention Mechanism for Image Classification Model Compression

要約

AIチップ(GPU、TPU、NPUなど)の改善とモノのインターネット(IoT)の急速な発展に伴い、一部の堅牢なディープニューラルネットワーク(DNN)は通常、数百万または数億ものパラメーターで構成されています。
このような大規模なモデルは、低計算および低容量のユニット(エッジデバイスなど)に直接展開するのには適していない場合があります。
知識蒸留(KD)は、モデルパラメータを効果的に減らすための強力なモデル圧縮方法として最近認識されています。
KDの中心的な概念は、モデルサイズが教師よりもはるかに小さい小さなモデル(つまり、学生モデル)を正常にトレーニングするための参照として、大きなモデル(つまり、教師モデル)の特徴マップから有用な情報を抽出することです。
1。
教師モデルの中間層の特徴マップからの情報を利用するために多くのKD手法が提案されていますが、ほとんどは教師モデルと学生モデルの間の特徴マップの類似性を考慮していませんでした。
その結果、学生モデルが役に立たない情報を学習する可能性があります。
注意メカニズムに着想を得て、特徴マップの類似性を考慮するだけでなく、対象の学生モデルのパフォーマンスを向上させるために不要な情報を除外する、代表的な教師キー(RTK)と呼ばれる新しいKD手法を提案します。
実験では、いくつかのバックボーンネットワーク(ResNetやWideResNetなど)とデータセット(CIFAR10、CIFAR100、SVHN、CINIC10など)を使用して、提案された方法を検証します。
結果は、提案されたRTKが最先端の注意ベースのKD法の分類精度を効果的に改善できることを示しています。

要約(オリジナル)

With the improvement of AI chips (e.g., GPU, TPU, and NPU) and the fast development of the Internet of Things (IoT), some robust deep neural networks (DNNs) are usually composed of millions or even hundreds of millions of parameters. Such a large model may not be suitable for directly deploying on low computation and low capacity units (e.g., edge devices). Knowledge distillation (KD) has recently been recognized as a powerful model compression method to decrease the model parameters effectively. The central concept of KD is to extract useful information from the feature maps of a large model (i.e., teacher model) as a reference to successfully train a small model (i.e., student model) in which the model size is much smaller than the teacher one. Although many KD methods have been proposed to utilize the information from the feature maps of intermediate layers in the teacher model, most did not consider the similarity of feature maps between the teacher model and the student model. As a result, it may make the student model learn useless information. Inspired by the attention mechanism, we propose a novel KD method called representative teacher key (RTK) that not only considers the similarity of feature maps but also filters out the useless information to improve the performance of the target student model. In the experiments, we validate our proposed method with several backbone networks (e.g., ResNet and WideResNet) and datasets (e.g., CIFAR10, CIFAR100, SVHN, and CINIC10). The results show that our proposed RTK can effectively improve the classification accuracy of the state-of-the-art attention-based KD method.

arxiv情報

著者 Jun-Teng Yang,Sheng-Che Kao,Scott C. -H. Huang
発行日 2022-07-28 07:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク