Hint-dynamic Knowledge Distillation

要約

知識の蒸留 (KD) は、能力の高い教師モデルから知識を移し、より小さな生徒モデルを促進します。
既存の取り組みは、予測ロジットや特徴の埋め込みなどを照合することによって蒸留を導きますが、ジャンクションでそれらを効率的に利用する方法はあまり検討されていません。
この論文では、Hint-dynamic Knowledge Distillation (HKD と呼ばれる) を提案します。これは、動的スキームで教師のヒントから知識を発掘します。
知識のヒントからのガイダンス効果は、通常、さまざまなインスタンスと学習段階で異なります。これにより、インスタンスごとに特定のヒント学習方法を適応的にカスタマイズすることができます。
具体的には、学生モデルの動的学習の進行状況の認識における知識のヒントに関するインスタンスごとの重み係数を生成するために、メタ重みネットワークが導入されます。
さらに、履歴統計を活用することにより、係数推定の潜在的なバイアスを排除するための重みアンサンブル戦略を提示します。
CIFAR-100 と Tiny-ImageNet の標準ベンチマークでの実験では、提案された HKD が知識抽出タスクの効果を十分に高めることが明らかになりました。

要約(オリジナル)

Knowledge Distillation (KD) transfers the knowledge from a high-capacity teacher model to promote a smaller student model. Existing efforts guide the distillation by matching their prediction logits, feature embedding, etc., while leaving how to efficiently utilize them in junction less explored. In this paper, we propose Hint-dynamic Knowledge Distillation, dubbed HKD, which excavates the knowledge from the teacher’ s hints in a dynamic scheme. The guidance effect from the knowledge hints usually varies in different instances and learning stages, which motivates us to customize a specific hint-learning manner for each instance adaptively. Specifically, a meta-weight network is introduced to generate the instance-wise weight coefficients about knowledge hints in the perception of the dynamical learning progress of the student model. We further present a weight ensembling strategy to eliminate the potential bias of coefficient estimation by exploiting the historical statics. Experiments on standard benchmarks of CIFAR-100 and Tiny-ImageNet manifest that the proposed HKD well boost the effect of knowledge distillation tasks.

arxiv情報

著者 Yiyang Liu,Chenxin Li,Xiaotong Tu,Xinghao Ding,Yue Huang
発行日 2022-11-30 15:03:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク