NormKD: Normalized Logits for Knowledge Distillation

要約

ほとんどの場合、特徴ベースの方法の方がパフォーマンスが優れているため、ロジットベースの知識の抽出は近年あまり注目されていません。
それにもかかわらず、温度を再調査すると、まだ未開発の可能性があることがわかります。温度は、ロジット出力を柔らかくするための重要なハイパーパラメーターです。
以前の作品のほとんどでは、蒸留手順全体の固定値として設定されていました。
ただし、異なるサンプルからのロジットは非常に多様に分布しているため、単一の温度だけですべてを同じ程度に軟化させることは現実的ではなく、これまでの研究では各サンプルの知識が不十分に伝達される可能性があります。
この論文では、ハイパーパラメータ温度を再研究し、温度が単一の値である場合、各サンプルから知識を十分に抽出できないことを解明しました。
この問題に対処するために、サンプルのロジット分布の特性に従って各サンプルの温度をカスタマイズすることを目的とした正規化知識蒸留 (NormKD) を提案します。
バニラ KD と比較すると、NormKD には追加の計算コストやストレージ コストがほとんどありませんが、画像分類では CIRAR-100 および ImageNet でのパフォーマンスが大幅に向上します。
さらに、NormKD は他のロジット ベースのメソッドに簡単に適用でき、特徴ベースのメソッドに近い、またはそれよりも優れたパフォーマンスを実現できます。

要約(オリジナル)

Logit based knowledge distillation gets less attention in recent years since feature based methods perform better in most cases. Nevertheless, we find it still has untapped potential when we re-investigate the temperature, which is a crucial hyper-parameter to soften the logit outputs. For most of the previous works, it was set as a fixed value for the entire distillation procedure. However, as the logits from different samples are distributed quite variously, it is not feasible to soften all of them to an equal degree by just a single temperature, which may make the previous work transfer the knowledge of each sample inadequately. In this paper, we restudy the hyper-parameter temperature and figure out its incapability to distill the knowledge from each sample sufficiently when it is a single value. To address this issue, we propose Normalized Knowledge Distillation (NormKD), with the purpose of customizing the temperature for each sample according to the characteristic of the sample’s logit distribution. Compared to the vanilla KD, NormKD barely has extra computation or storage cost but performs significantly better on CIRAR-100 and ImageNet for image classification. Furthermore, NormKD can be easily applied to the other logit based methods and achieve better performance which can be closer to or even better than the feature based method.

arxiv情報

著者 Zhihao Chi,Tu Zheng,Hengjia Li,Zheng Yang,Boxi Wu,Binbin Lin,Deng Cai
発行日 2023-08-01 12:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク