Good Teachers Explain: Explanation-Enhanced Knowledge Distillation

要約

知識蒸留(Knowledge Distillation: KD)は、大きな教師モデルを小さな生徒モデルに圧縮するのに有効であることが証明されている。生徒モデルが教師と同様の精度を達成できることはよく知られているが、それにもかかわらず、生徒モデルが同じ関数を学習しないことがよくあることも示されている。しかしながら、生徒と教師の関数が、同じ入力特徴量に基づく予測など、類似した性質を共有することが非常に望ましい場合が多い。この研究では、古典的なKD損失だけでなく、教師と生徒が生成する説明の類似性を最適化することで、これを達成できるかどうかを探求する。この考え方は単純で直感的であるにもかかわらず、我々の提案する「説明強化型」KD(e$^2$KD)は、(1)一貫して精度と生徒と教師の一致の点で大きな利点を提供し、(2)生徒が教師から正しい理由で正しいことを学び、同様の説明をすることを保証し、(3)モデルアーキテクチャ、学習データ量に関して頑健であり、「近似的」な事前計算された説明でも機能することがわかった。

要約(オリジナル)

Knowledge Distillation (KD) has proven effective for compressing large teacher models into smaller student models. While it is well known that student models can achieve similar accuracies as the teachers, it has also been shown that they nonetheless often do not learn the same function. It is, however, often highly desirable that the student’s and teacher’s functions share similar properties such as basing the prediction on the same input features, as this ensures that students learn the ‘right features’ from the teachers. In this work, we explore whether this can be achieved by not only optimizing the classic KD loss but also the similarity of the explanations generated by the teacher and the student. Despite the idea being simple and intuitive, we find that our proposed ‘explanation-enhanced’ KD (e$^2$KD) (1) consistently provides large gains in terms of accuracy and student-teacher agreement, (2) ensures that the student learns from the teacher to be right for the right reasons and to give similar explanations, and (3) is robust with respect to the model architectures, the amount of training data, and even works with ‘approximate’, pre-computed explanations.

arxiv情報

著者 Amin Parchami-Araghi,Moritz Böhle,Sukrut Rao,Bernt Schiele
発行日 2024-02-05 15:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク