要約
知識蒸留 (KD) は、十分にトレーニングされた大規模なモデル (教師など) を利用して、同じタスクに対して同じデータセットで小規模な生徒モデルをトレーニングします。
教師の特徴を知識として扱い、知識蒸留の一般的な方法では、その特徴を教師の特徴と一致させることによって、たとえば、ロジット間の KL 発散または中間特徴間の L2 距離を最小限に抑えることによって、生徒を訓練します。
生徒の特徴を教師に合わせて調整すると、教師の知識がよりよく抽出されると考えるのは自然なことですが、この調整を単に強制するだけでは、分類精度などの生徒のパフォーマンスに直接寄与しません。
この研究では、生徒の特徴を教師の特徴のクラス平均と一致させることを提案します。この場合、クラス平均は自然に強力な分類子として機能します。
この目的を達成するために、生徒の特徴とそれに対応する教師のクラス平均値との類似性を促進するために、コサイン距離ベースの損失を採用するなどのベースライン手法を検討します。
さらに、他の作業 (例: モデルの枝刈りやドメイン適応) からインスピレーションを得て、大きなノルムの特徴がより重要であることがわかる大きなノルムの特徴を生成するように学生を訓練します。
最後に、(1) 生徒に大きな \emph{norm} 特徴を生成するよう促す、(2) 生徒の特徴と教師のクラスの \emph{direction} を揃えるという、かなり単純な損失項 (ND 損失と呼ばれる) を提案します。
意味。
標準ベンチマークの実験では、調査した手法が既存の KD 手法のパフォーマンス向上、つまり ImageNet および CIFAR100 データセットでの分類精度の向上、COCO データセットでの検出精度の向上に役立つことが実証されました。
重要なのは、私たちが提案した ND 損失が最も役立ち、これらのベンチマークで最先端のパフォーマンスを実現できることです。
ソース コードは \url{https://github.com/WangYZ1608/Knowledge-Distillation-via-ND} で入手できます。
要約(オリジナル)
Knowledge distillation (KD) exploits a large well-trained model (i.e., teacher) to train a small student model on the same dataset for the same task. Treating teacher features as knowledge, prevailing methods of knowledge distillation train student by aligning its features with the teacher’s, e.g., by minimizing the KL-divergence between their logits or L2 distance between their intermediate features. While it is natural to believe that better alignment of student features to the teacher better distills teacher knowledge, simply forcing this alignment does not directly contribute to the student’s performance, e.g., classification accuracy. In this work, we propose to align student features with class-mean of teacher features, where class-mean naturally serves as a strong classifier. To this end, we explore baseline techniques such as adopting the cosine distance based loss to encourage the similarity between student features and their corresponding class-means of the teacher. Moreover, we train the student to produce large-norm features, inspired by other lines of work (e.g., model pruning and domain adaptation), which find the large-norm features to be more significant. Finally, we propose a rather simple loss term (dubbed ND loss) to simultaneously (1) encourage student to produce large-\emph{norm} features, and (2) align the \emph{direction} of student features and teacher class-means. Experiments on standard benchmarks demonstrate that our explored techniques help existing KD methods achieve better performance, i.e., higher classification accuracy on ImageNet and CIFAR100 datasets, and higher detection precision on COCO dataset. Importantly, our proposed ND loss helps the most, leading to the state-of-the-art performance on these benchmarks. The source code is available at \url{https://github.com/WangYZ1608/Knowledge-Distillation-via-ND}.
arxiv情報
著者 | Yuzhu Wang,Lechao Cheng,Manni Duan,Yongheng Wang,Zunlei Feng,Shu Kong |
発行日 | 2023-05-26 15:05:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google