Toward Student-Oriented Teacher Network Training For Knowledge Distillation

要約

知識を蒸留するための教師研修をどのように実施するかは依然として未解決の問題です。
最も成績の良い教師が必ずしも最も成績の良い生徒を生み出すわけではないことは広く観察されており、これは現在の教師研修の実践と理想的な教師研修戦略の間に根本的な矛盾があることを示唆しています。
このギャップを埋めるために、私たちは経験的リスク最小化 (ERM) を用いて生徒の成績を重視した教師を訓練する実現可能性を探ります。
私たちの分析は、知識蒸留の有効性は、トレーニング入力の真のラベル分布を近似する教師の能力に依存するという最近の発見に触発されています。
学習者ネットワークの特徴抽出器がリプシッツ連続であり、特徴変換に対して堅牢である限り、ERM ミニマイザーはトレーニング データの真のラベル分布を近似できることが理論的に確立されます。
私たちの理論を踏まえて、リプシッツ正則化と一貫性正則化を ERM に組み込んだ教師トレーニング手法 SoTeacher を提案します。
さまざまな知識蒸留アルゴリズムと教師と生徒のペアを使用したベンチマーク データセットの実験により、SoTeacher が生徒の精度を一貫して向上できることが確認されました。

要約(オリジナル)

How to conduct teacher training for knowledge distillation is still an open problem. It has been widely observed that a best-performing teacher does not necessarily yield the best-performing student, suggesting a fundamental discrepancy between the current teacher training practice and the ideal teacher training strategy. To fill this gap, we explore the feasibility of training a teacher that is oriented toward student performance with empirical risk minimization (ERM). Our analyses are inspired by the recent findings that the effectiveness of knowledge distillation hinges on the teacher’s capability to approximate the true label distribution of training inputs. We theoretically establish that the ERM minimizer can approximate the true label distribution of training data as long as the feature extractor of the learner network is Lipschitz continuous and is robust to feature transformations. In light of our theory, we propose a teacher training method SoTeacher which incorporates Lipschitz regularization and consistency regularization into ERM. Experiments on benchmark datasets using various knowledge distillation algorithms and teacher-student pairs confirm that SoTeacher can improve student accuracy consistently.

arxiv情報

著者 Chengyu Dong,Liyuan Liu,Jingbo Shang
発行日 2024-05-09 09:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク