What Knowledge Gets Distilled in Knowledge Distillation?

要約

知識抽出は、教師ネットワークから生徒ネットワークへ有用な情報を転送することを目的とし、生徒の課題に対するパフォーマンスを向上させることを主な目的としている。長年にわたり、知識蒸留の斬新な技術や使用例が氾濫してきた。しかし、様々な改善にもかかわらず、このプロセスに関するコミュニティの基本的な理解には明らかなギャップがあるように思われる。具体的には、知識蒸留で蒸留される知識とは何か?言い換えれば、どのような点で生徒が教師に似てくるのか?同じように対象を定位し始めるのか?同じ敵対的サンプルに騙されるようになるのか?データ不変性の特性は似てくるのか?我々の研究は、これらの疑問に答えるための包括的な研究である。我々は、既存の手法が、タスクのパフォーマンスを向上させるだけでなく、間接的にこれらの特性を抽出できることを示す。さらに、知識抽出がこのように機能する理由を研究し、我々の発見が実用的な意味も持つことを示す。

要約(オリジナル)

Knowledge distillation aims to transfer useful information from a teacher network to a student network, with the primary goal of improving the student’s performance for the task at hand. Over the years, there has a been a deluge of novel techniques and use cases of knowledge distillation. Yet, despite the various improvements, there seems to be a glaring gap in the community’s fundamental understanding of the process. Specifically, what is the knowledge that gets distilled in knowledge distillation? In other words, in what ways does the student become similar to the teacher? Does it start to localize objects in the same way? Does it get fooled by the same adversarial samples? Does its data invariance properties become similar? Our work presents a comprehensive study to try to answer these questions. We show that existing methods can indeed indirectly distill these properties beyond improving task performance. We further study why knowledge distillation might work this way, and show that our findings have practical implications as well.

arxiv情報

著者 Utkarsh Ojha,Yuheng Li,Anirudh Sundara Rajan,Yingyu Liang,Yong Jae Lee
発行日 2023-11-06 17:45:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク