要約
Knowledge Distillation(KD)は、知識を大規模な教師モデルから小規模な学生モデルに転送することを目指しています。
対照的な学習は、識別表現を作成することにより自己教師の学習に有望を示していますが、知識の蒸留におけるその適用は限られたままであり、主に差別に焦点を当てており、教師モデルによって捕らえられた構造的関係を無視しています。
この制限に対処するために、識別と一貫した蒸留(DCD)を提案します。これは、教師と生徒の表現の分布の間の矛盾を最小限に抑えるために、一貫性の正則化とともに対照的な損失を採用しています。
私たちの方法では、トレーニング中に適応する学習可能な温度とバイアスパラメーターを紹介します。これらの補完的な目的のバランスをとり、対照的な学習アプローチで一般的に使用される固定ハイパーパラメーターを置き換えます。
CIFAR-100およびImagenet ILSVRC-2012の広範な実験を通じて、DCDが最先端のパフォーマンスを達成し、学生モデルが教師の正確さを上回ることがあることを実証します。
さらに、DCDの学習表現は、Tiny ImagenetとSTL-10に転送されたときに優れたクロスダタセットの一般化を示すことを示しています。
要約(オリジナル)
Knowledge Distillation (KD) aims to transfer knowledge from a large teacher model to a smaller student model. While contrastive learning has shown promise in self-supervised learning by creating discriminative representations, its application in knowledge distillation remains limited and focuses primarily on discrimination, neglecting the structural relationships captured by the teacher model. To address this limitation, we propose Discriminative and Consistent Distillation (DCD), which employs a contrastive loss along with a consistency regularization to minimize the discrepancy between the distributions of teacher and student representations. Our method introduces learnable temperature and bias parameters that adapt during training to balance these complementary objectives, replacing the fixed hyperparameters commonly used in contrastive learning approaches. Through extensive experiments on CIFAR-100 and ImageNet ILSVRC-2012, we demonstrate that DCD achieves state-of-the-art performance, with the student model sometimes surpassing the teacher’s accuracy. Furthermore, we show that DCD’s learned representations exhibit superior cross-dataset generalization when transferred to Tiny ImageNet and STL-10.
arxiv情報
著者 | Nikolaos Giakoumoglou,Tania Stathaki |
発行日 | 2025-02-10 14:53:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google