要約
知識の蒸留は、大規模な教師ネットワークからコンパクトでより合理化された生徒ネットワークに知識を伝達する機能として広く認識されるようになりました。
従来の知識の蒸留方法は主に、教師の複雑な知識を学習するタスクを生徒のネットワークに課す教師指向のパラダイムに従っています。
ただし、モデルの能力とアーキテクチャ設計に大きな違いがあるため、教師から与えられる複雑な知識を生徒が理解することが妨げられ、最適なパフォーマンスが得られません。
この文書では、生徒中心を強調し、生徒のニーズに合わせて教師の知識を洗練することで、知識伝達の効率を向上させる新しい視点を導入しています。
具体的には、生徒に関する教師の知識を動的に洗練させるために、トレーニング中に学習可能な特徴拡張戦略を組み込んだ生徒指向の知識蒸留 (SoKD) を紹介します。
さらに、Distinctive Area Detection Module (DAM) を導入して、教師と生徒の間で相互に関心のある領域を特定し、これらの重要な領域内での知識の伝達を集中させ、無関係な情報の伝達を回避します。
このカスタマイズされたモジュールにより、より集中的で効果的な知識の蒸留プロセスが保証されます。
私たちのアプローチはプラグインとして機能し、さまざまな知識の蒸留方法と統合できます。
広範な実験結果により、私たちの方法の有効性と一般化可能性が実証されています。
要約(オリジナル)
Knowledge distillation has become widely recognized for its ability to transfer knowledge from a large teacher network to a compact and more streamlined student network. Traditional knowledge distillation methods primarily follow a teacher-oriented paradigm that imposes the task of learning the teacher’s complex knowledge onto the student network. However, significant disparities in model capacity and architectural design hinder the student’s comprehension of the complex knowledge imparted by the teacher, resulting in sub-optimal performance. This paper introduces a novel perspective emphasizing student-oriented and refining the teacher’s knowledge to better align with the student’s needs, thereby improving knowledge transfer effectiveness. Specifically, we present the Student-Oriented Knowledge Distillation (SoKD), which incorporates a learnable feature augmentation strategy during training to refine the teacher’s knowledge of the student dynamically. Furthermore, we deploy the Distinctive Area Detection Module (DAM) to identify areas of mutual interest between the teacher and student, concentrating knowledge transfer within these critical areas to avoid transferring irrelevant information. This customized module ensures a more focused and effective knowledge distillation process. Our approach, functioning as a plug-in, could be integrated with various knowledge distillation methods. Extensive experimental results demonstrate the efficacy and generalizability of our method.
arxiv情報
著者 | Chaomin Shen,Yaomin Huang,Haokun Zhu,Jinsong Fan,Guixu Zhang |
発行日 | 2024-09-27 14:34:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google