要約
知識蒸留 (KD) には、あるニューラル ネットワークから別のニューラル ネットワークへの知識の転送が含まれます。多くの場合、より大規模でよく訓練されたモデル (教師) から、より小規模でより効率的なモデル (生徒) への転送が行われます。
従来の KD 手法は、教師と生徒のネットワークの確率的出力間のカルバック・ライブラー (KL) 発散を最小限に抑えます。
しかし、このアプローチでは、教師のネットワーク内に組み込まれた重要な構造的知識が見落とされることがよくあります。
この論文では、学生モデルの表現が教師の表現と一貫していることを保証することで KD を強化するように設計された新しい方法論である不変整合性蒸留 (ICD) を紹介します。
私たちのアプローチは、対照的な学習と明示的な不変ペナルティを組み合わせて、教師によるデータ表現からより多くの情報を取得します。
CIFAR-100 に関する当社の結果は、ICD が従来の KD 技術を上回り、13 の最先端の方法を上回っていることを示しています。
場合によっては、学生モデルが精度の点で教師モデルを上回ることさえあります。
さらに、Tiny ImageNet や STL-10 などの他のデータセットへのメソッドの転送にも成功しました。
コードは近々公開される予定です。
要約(オリジナル)
Knowledge distillation (KD) involves transferring the knowledge from one neural network to another, often from a larger, well-trained model (teacher) to a smaller, more efficient model (student). Traditional KD methods minimize the Kullback-Leibler (KL) divergence between the probabilistic outputs of the teacher and student networks. However, this approach often overlooks crucial structural knowledge embedded within the teacher’s network. In this paper, we introduce Invariant Consistency Distillation (ICD), a novel methodology designed to enhance KD by ensuring that the student model’s representations are consistent with those of the teacher. Our approach combines contrastive learning with an explicit invariance penalty, capturing significantly more information from the teacher’s representation of the data. Our results on CIFAR-100 demonstrate that ICD outperforms traditional KD techniques and surpasses 13 state-of-the-art methods. In some cases, the student model even exceeds the teacher model in terms of accuracy. Furthermore, we successfully transfer our method to other datasets, including Tiny ImageNet and STL-10. The code will be made public soon.
arxiv情報
著者 | Nikolaos Giakoumoglou,Tania Stathaki |
発行日 | 2024-07-16 14:53:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google