Less or More From Teacher: Exploiting Trilateral Geometry For Knowledge Distillation

要約

知識の蒸留は、大規模な教師ネットワークからのソフトな監督とグラウンド トゥルースからのハードな監督を使用して、コンパクトな生徒ネットワークをトレーニングすることを目的としています。
ただし、これらの監視信号のバランスをとる最適な知識融合比率を決定することは依然として困難です。
従来の方法は一般に、一定の融合比率またはヒューリスティックベースの融合比率に頼っており、適切なバランスに達しないことがよくあります。
この研究では、教師と生徒の正確さ、および生徒が各サンプルでどれだけ教師を模倣するかを利用して、サンプルごとの知識融合率を学習するための新しい適応方法を導入します。
私たちの方法は、生徒の予測 ($S$)、教師の予測 ($T$)、およびグラウンド トゥルース ($G$) の間のサンプル内の三極幾何学的関係を自然に導きます。
外れ値の影響を相殺するために、同じクラス内のサンプルに対する教師の全体的な平均予測 $\bar{T}$ を組み込んで、サンプル間の関係にさらに拡張します。
次に、単純なニューラル ネットワークが、バイレベル最適化方式で、サンプル内およびサンプル間の関係から適応的なサンプルごとの知識融合比率への暗黙的なマッピングを学習します。
私たちのアプローチは、さまざまなアーキテクチャやモデル サイズにわたって採用できる、知識を蒸留するためのシンプルで実用的かつ適応性のあるソリューションを提供します。
広範な実験により、画像分類、攻撃検出、クリックスルー率予測において、他の損失再重み付け手法と比較して一貫した改善が実証されています。

要約(オリジナル)

Knowledge distillation aims to train a compact student network using soft supervision from a larger teacher network and hard supervision from ground truths. However, determining an optimal knowledge fusion ratio that balances these supervisory signals remains challenging. Prior methods generally resort to a constant or heuristic-based fusion ratio, which often falls short of a proper balance. In this study, we introduce a novel adaptive method for learning a sample-wise knowledge fusion ratio, exploiting both the correctness of teacher and student, as well as how well the student mimics the teacher on each sample. Our method naturally leads to the intra-sample trilateral geometric relations among the student prediction ($S$), teacher prediction ($T$), and ground truth ($G$). To counterbalance the impact of outliers, we further extend to the inter-sample relations, incorporating the teacher’s global average prediction $\bar{T}$ for samples within the same class. A simple neural network then learns the implicit mapping from the intra- and inter-sample relations to an adaptive, sample-wise knowledge fusion ratio in a bilevel-optimization manner. Our approach provides a simple, practical, and adaptable solution for knowledge distillation that can be employed across various architectures and model sizes. Extensive experiments demonstrate consistent improvements over other loss re-weighting methods on image classification, attack detection, and click-through rate prediction.

arxiv情報

著者 Chengming Hu,Haolun Wu,Xuan Li,Chen Ma,Xi Chen,Jun Yan,Boyu Wang,Xue Liu
発行日 2024-01-01 03:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク