What Knowledge Gets Distilled in Knowledge Distillation?

要約

知識抽出は、教師ネットワークから生徒ネットワークに有用な情報を転送することを目的とし、生徒のタスクに対するパフォーマンスを向上させることを主な目的としています。長年にわたり、知識抽出の新しい技術や使用事例が大量に報告されてきました。しかし、様々な改善にもかかわらず、このプロセスに関するコミュニティの基本的な理解には明らかなギャップがあるように思われます。具体的には、知識蒸留法において蒸留される知識とは何なのか?言い換えれば、生徒はどのような点で教師に似てくるのでしょうか?同じように物体を定位するようになるのか?同じ敵対的なサンプルに惑わされるのだろうか?データ不変性の特性は似てくるのか?我々の研究は、これらの疑問やその他の疑問に答えるための包括的な研究である。画像分類をケーススタディとし、3つの最先端の知識蒸留法を用いた結果、知識蒸留法は、タスクのパフォーマンスを向上させるだけでなく、他の種類の特性を間接的に蒸留できることが実際に示されました。また、蒸留のプロセスを理解すること自体が重要であると同時に、我々の結果が重要な実用化への道を開くことができることを実証しています。

要約(オリジナル)

Knowledge distillation aims to transfer useful information from a teacher network to a student network, with the primary goal of improving the student’s performance for the task at hand. Over the years, there has a been a deluge of novel techniques and use cases of knowledge distillation. Yet, despite the various improvements, there seems to be a glaring gap in the community’s fundamental understanding of the process. Specifically, what is the knowledge that gets distilled in knowledge distillation? In other words, in what ways does the student become similar to the teacher? Does it start to localize objects in the same way? Does it get fooled by the same adversarial samples? Does its data invariance properties become similar? Our work presents a comprehensive study to try to answer these questions and more. Our results, using image classification as a case study and three state-of-the-art knowledge distillation techniques, show that knowledge distillation methods can indeed indirectly distill other kinds of properties beyond improving task performance. And while we believe that understanding the distillation process is important in itself, we also demonstrate that our results can pave the path for important practical applications as well.

arxiv情報

著者 Utkarsh Ojha,Yuheng Li,Yong Jae Lee
発行日 2022-10-03 16:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク