Knowledge Distillation with Refined Logits

要約

知識蒸留に関する最近の研究では、モデル圧縮におけるそのシンプルさ、有効性、多用途性により、ロジット蒸留にますます焦点が当てられています。
このペーパーでは、現在のロジット蒸留法の限界に対処するために、精製ロジット蒸留 (RLD) を紹介します。
私たちのアプローチは、高性能の教師モデルでも誤った予測を行う可能性があり、標準蒸留損失とクロスエントロピー損失の間に矛盾が生じる可能性があるという観察に基づいています。
この矛盾により、学生モデルの学習目標の一貫性が損なわれる可能性があります。
ラベルを使用して教師の予測を経験的に修正するというこれまでの試みでは、クラスの相関関係が損なわれる可能性があります。
対照的に、私たちの RLD は、教師のロジットを動的に洗練するためにラベル付け情報を使用します。
このようにして、私たちの方法は、クラスの重要な相関関係を維持しながら、教師から誤解を招く情報を効果的に排除し、抽出された知識の価値と効率を高めることができます。
CIFAR-100 と ImageNet の実験結果は、既存の方法に対する CIFAR-100 の優位性を示しています。
コードは \text{https://github.com/zju-SWJ/RLD} で提供されます。

要約(オリジナル)

Recent research on knowledge distillation has increasingly focused on logit distillation because of its simplicity, effectiveness, and versatility in model compression. In this paper, we introduce Refined Logit Distillation (RLD) to address the limitations of current logit distillation methods. Our approach is motivated by the observation that even high-performing teacher models can make incorrect predictions, creating a conflict between the standard distillation loss and the cross-entropy loss. This conflict can undermine the consistency of the student model’s learning objectives. Previous attempts to use labels to empirically correct teacher predictions may undermine the class correlation. In contrast, our RLD employs labeling information to dynamically refine teacher logits. In this way, our method can effectively eliminate misleading information from the teacher while preserving crucial class correlations, thus enhancing the value and efficiency of distilled knowledge. Experimental results on CIFAR-100 and ImageNet demonstrate its superiority over existing methods. The code is provided at \text{https://github.com/zju-SWJ/RLD}.

arxiv情報

著者 Wujie Sun,Defang Chen,Siwei Lyu,Genlang Chen,Chun Chen,Can Wang
発行日 2024-08-14 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク