Do Not Blindly Imitate the Teacher: Using Perturbed Loss for Knowledge Distillation

要約

【タイトル】教師を盲目的に模倣するな:知識蒸留のための歪んだ損失関数の使用

【要約】
– 知識蒸留は、大きな教師モデルから小さな学生モデルに知識を伝える人気のある技術である。
– 学生は、通常、自身の出力分布と教師の出力分布のKLダイバージェンスを最小化することで、教師を模倣することを学ぶ。
– しかし、教師の出力分布と真のラベル分布には不一致があるため、学生に不確実な教師の出力分布を無批判に模倣させることは劣った性能につながる。
– そこで、マクローリン級数を介してバニラKLベースの知識蒸留損失関数を表現し、この級数の主要項を歪めることで、新しい知識蒸留目的PTLossを提案する。
– これにより、歪んだ損失関数は元の教師を真の分布に近い分布を持つ代理教師に暗黙的に変換するため、学生の性能を向上させる。
– PTLossの歪み係数を原理的に選択することができる、この分布の近さと学生モデルの汎化性の理論的な連結を確立する。
– 5つのデータセットでの広範な実験により、PTLossがさまざまなスケールの教師に対して蒸留の効果を大幅に改善できることが示された。

要約(オリジナル)

Knowledge distillation is a popular technique to transfer knowledge from large teacher models to a small student model. Typically, the student learns to imitate the teacher by minimizing the KL divergence of its output distribution with the teacher’s output distribution. In this work, we argue that such a learning objective is sub-optimal because there exists a discrepancy between the teacher’s output distribution and the ground truth label distribution. Therefore, forcing the student to blindly imitate the unreliable teacher output distribution leads to inferior performance. To this end, we propose a novel knowledge distillation objective PTLoss by first representing the vanilla KL-based distillation loss function via a Maclaurin series and then perturbing the leading-order terms in this series. This perturbed loss implicitly transforms the original teacher into a proxy teacher with a distribution closer to the ground truth distribution. We establish the theoretical connection between this ‘distribution closeness’ and the student model generalizability, which enables us to select the PTLoss’s perturbation coefficients in a principled way. Extensive experiments on five datasets demonstrate PTLoss can significantly improve the distillation effectiveness for teachers of various scales.

arxiv情報

著者 Rongzhi Zhang,Jiaming Shen,Tianqi Liu,Jialu Liu,Michael Bendersky,Marc Najork,Chao Zhang
発行日 2023-05-08 19:31:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク