KD$^{2}$M: An unifying framework for feature knowledge distillation

要約

知識蒸留(KD)は、生徒のニューラルネットに向けて、教師の知識を転送しようとしています。
このプロセスは、ネットワークの予測(つまり、それらの出力)に一致することによってしばしば行われますが、最近、いくつかの作品がニューラルネットの活性化(つまり、それらの機能)の分布と一致するように提案しました。
この論文では、この戦略を形式化する分布マッチング(kd $^{2} $ m)による統一フレームワーク、知識の蒸留を提案します。
私たちの貢献は3つあります。
i)分布マッチングで使用される分布メトリックの概要、ii)コンピュータービジョンデータセットのベンチマーク、およびiii)KDの新しい理論的結果を導き出します。

要約(オリジナル)

Knowledge Distillation (KD) seeks to transfer the knowledge of a teacher, towards a student neural net. This process is often done by matching the networks’ predictions (i.e., their output), but, recently several works have proposed to match the distributions of neural nets’ activations (i.e., their features), a process known as \emph{distribution matching}. In this paper, we propose an unifying framework, Knowledge Distillation through Distribution Matching (KD$^{2}$M), which formalizes this strategy. Our contributions are threefold. We i) provide an overview of distribution metrics used in distribution matching, ii) benchmark on computer vision datasets, and iii) derive new theoretical results for KD.

arxiv情報

著者 Eduardo Fernandes Montesuma
発行日 2025-04-02 14:14:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク