要約
知識蒸留 (KD) を使用すると、教師の出力または機能から知識を転送することで、より小規模な「生徒」モデルがより大きな「教師」モデルを模倣できるようになります。
ただし、ほとんどの KD メソッドはすべてのサンプルを均一に処理するため、各サンプルのさまざまな学習値が無視され、それによって有効性が制限されます。
この論文では、貴重なサンプルからの学習を優先する、シンプルかつ効果的なプラグアンドプレイ KD 手法であるエントロピーベースの適応型知識蒸留 (EA-KD) を提案します。
EA-KD は、教師と生徒の出力のエントロピーを戦略的に組み合わせることによって各サンプルの学習価値を定量化し、次に蒸留損失を動的に再重み付けして価値の高いサンプルをより重視します。
多様な KD フレームワークとタスクにわたる広範な実験$\unicode{x2014}$画像分類、物体検出、大規模言語モデル (LLM) 蒸留など$\unicode{x2014}$は、EA-KD が一貫してパフォーマンスを向上させ、現状を達成していることを実証します
– ごくわずかな計算コストで最先端の結果が得られます。
私たちのコードは公開される予定です。
要約(オリジナル)
Knowledge distillation (KD) enables a smaller ‘student’ model to mimic a larger ‘teacher’ model by transferring knowledge from the teacher’s output or features. However, most KD methods treat all samples uniformly, overlooking the varying learning value of each sample and thereby limiting effectiveness. In this paper, we propose Entropy-based Adaptive Knowledge Distillation (EA-KD), a simple yet effective plug-and-play KD method that prioritizes learning from valuable samples. EA-KD quantifies each sample’s learning value by strategically combining the entropy of the teacher and student output, then dynamically reweights the distillation loss to place greater emphasis on high-value samples. Extensive experiments across diverse KD frameworks and tasks$\unicode{x2014}$including image classification, object detection, and large language model (LLM) distillation$\unicode{x2014}$demonstrate that EA-KD consistently enhances performance, achieving state-of-the-art results with negligible computational cost. Our code will be publicly available.
arxiv情報
著者 | Chi-Ping Su,Ching-Hsun Tseng,Bin Pu,Lei Zhao,Zhuangzhuang Chen,Shin-Jye Lee |
発行日 | 2025-01-01 15:40:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google