Feature Structure Distillation with Centered Kernel Alignment in BERT Transferring

要約

知識の蒸留は、教師から生徒への表現に関する情報を、それらの違いを減らすことによって伝達するアプローチです。
このアプローチの課題は、学生の表現の柔軟性を低下させ、教師の知識の不正確な学習を誘発することです。
転送でそれを解決するために、3 つのタイプに指定された表現の構造の蒸留を調査します: イントラ機能、ローカル機能間、グローバル機能間構造。
それらを転送するために、Centered Kernel Alignment に基づいた機能構造蒸留法を導入します。これにより、同様の機能構造に一貫した値が割り当てられ、より有益な関係が明らかになります。
特に、クラスタリングを使用したメモリ拡張転送方法がグローバル構造に対して実装されています。
メソッドは、代表的なニューラル言語モデルであるトランスフォーマー (BERT) からの双方向エンコーダー表現を使用した GLUE データセットの言語理解のための 9 つのタスクで経験的に分析されます。
その結果、提案された方法は、3 種類の構造を効果的に転送し、最先端の蒸留方法と比較して性能を向上させます。
実際、メソッドのコードは https://github.com/maroo-sky/FSD で入手できます。

要約(オリジナル)

Knowledge distillation is an approach to transfer information on representations from a teacher to a student by reducing their difference. A challenge of this approach is to reduce the flexibility of the student’s representations inducing inaccurate learning of the teacher’s knowledge. To resolve it in transferring, we investigate distillation of structures of representations specified to three types: intra-feature, local inter-feature, global inter-feature structures. To transfer them, we introduce feature structure distillation methods based on the Centered Kernel Alignment, which assigns a consistent value to similar features structures and reveals more informative relations. In particular, a memory-augmented transfer method with clustering is implemented for the global structures. The methods are empirically analyzed on the nine tasks for language understanding of the GLUE dataset with Bidirectional Encoder Representations from Transformers (BERT), which is a representative neural language model. In the results, the proposed methods effectively transfer the three types of structures and improve performance compared to state-of-the-art distillation methods. Indeed, the code for the methods is available in https://github.com/maroo-sky/FSD.

arxiv情報

著者 Hee-Jun Jung,Doyeon Kim,Seung-Hoon Na,Kangil Kim
発行日 2023-02-27 10:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク