Linear Projections of Teacher Embeddings for Few-Class Distillation

要約

知識蒸留 (KD) は、より大規模で複雑な教師モデルから小規模な生徒モデルに知識を伝達するための有望なアプローチとして浮上しています。
伝統的に、KD には教師の出力確率を模倣するように生徒を訓練することが含まれますが、より高度な技術では、生徒が教師の内部表現を採用するように導くことが研究されています。
KD は広く成功を収めていますが、二値分類や少数クラス問題における KD のパフォーマンスはそれほど満足のいくものではありません。
これは、教師モデルの一般化パターンに関する情報がクラスの数に直接比例するためです。
さらに、いくつかの高度な蒸留方法は、コンピューター ビジョンを超えるデータ型に対して普遍的に適用できない、または効果的ではない可能性があります。
その結果、感情分析、検索クエリの理解、広告とクエリの関連性の評価など、さまざまな主要な現実世界のアプリケーションでは、効果的な蒸留技術が依然として入手困難です。
これらの観察を考慮して、教師のモデル表現から知識を抽出するための新しい方法を導入します。これを学習埋め込み線形投影 (LELP) と呼びます。
最終層表現の構造に関する最近の発見に触発された LELP は、教師の埋め込み空間内の有益な線形部分空間を特定し、それらを擬似サブクラスに分割することによって機能します。
次に、学生モデルは、これらの疑似クラスを複製するようにトレーニングされます。
Amazon Reviews や Sentiment140 などの大規模な NLP ベンチマークでの実験的評価では、ほとんどの KD 手法が苦手とする 2 値問題や少数クラス問題に関して、LELP が既存の最先端の蒸留アルゴリズムと一貫して競合し、通常は優れていることを示しています。

要約(オリジナル)

Knowledge Distillation (KD) has emerged as a promising approach for transferring knowledge from a larger, more complex teacher model to a smaller student model. Traditionally, KD involves training the student to mimic the teacher’s output probabilities, while more advanced techniques have explored guiding the student to adopt the teacher’s internal representations. Despite its widespread success, the performance of KD in binary classification and few-class problems has been less satisfactory. This is because the information about the teacher model’s generalization patterns scales directly with the number of classes. Moreover, several sophisticated distillation methods may not be universally applicable or effective for data types beyond Computer Vision. Consequently, effective distillation techniques remain elusive for a range of key real-world applications, such as sentiment analysis, search query understanding, and advertisement-query relevance assessment. Taking these observations into account, we introduce a novel method for distilling knowledge from the teacher’s model representations, which we term Learning Embedding Linear Projections (LELP). Inspired by recent findings about the structure of final-layer representations, LELP works by identifying informative linear subspaces in the teacher’s embedding space, and splitting them into pseudo-subclasses. The student model is then trained to replicate these pseudo-classes. Our experimental evaluation on large-scale NLP benchmarks like Amazon Reviews and Sentiment140 demonstrate the LELP is consistently competitive with, and typically superior to, existing state-of-the-art distillation algorithms for binary and few-class problems, where most KD methods suffer.

arxiv情報

著者 Noel Loo,Fotis Iliopoulos,Wei Hu,Erik Vee
発行日 2024-09-30 16:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク