Weight-Inherited Distillation for Task-Agnostic BERT Compression

要約

Knowledge Distillation (KD) は、BERT 圧縮の主なアプローチです。
これまでの KD ベースの手法は、教師モデルの動作を模倣するために生徒モデルの追加のアライメント損失を設計することに重点を置いていました。
これらの方法では、間接的な方法で知識が伝達されます。
この論文では、教師から知識を直接伝達する新しい重み継承蒸留 (WID) を提案します。
WID は追加のアライメント損失を必要とせず、重みを継承することでコンパクトなスチューデントをトレーニングし、知識蒸留の新しい視点を示します。
具体的には、行コンパクターと列コンパクターをマッピングとして設計し、構造の再パラメーター化によって重みを圧縮します。
GLUE および SQuAD ベンチマークの実験結果は、WID が以前の最先端の KD ベースのベースラインを上回るパフォーマンスを示していることを示しています。
さらに分析を進めると、WID は注意分布のアライメントを失うことなく、教師モデルから注意パターンを学習できることがわかりました。
コードは https://github.com/wutaiqiang/WID-NAACL2024 で入手できます。

要約(オリジナル)

Knowledge Distillation (KD) is a predominant approach for BERT compression. Previous KD-based methods focus on designing extra alignment losses for the student model to mimic the behavior of the teacher model. These methods transfer the knowledge in an indirect way. In this paper, we propose a novel Weight-Inherited Distillation (WID), which directly transfers knowledge from the teacher. WID does not require any additional alignment loss and trains a compact student by inheriting the weights, showing a new perspective of knowledge distillation. Specifically, we design the row compactors and column compactors as mappings and then compress the weights via structural re-parameterization. Experimental results on the GLUE and SQuAD benchmarks show that WID outperforms previous state-of-the-art KD-based baselines. Further analysis indicates that WID can also learn the attention patterns from the teacher model without any alignment loss on attention distributions. The code is available at https://github.com/wutaiqiang/WID-NAACL2024.

arxiv情報

著者 Taiqiang Wu,Cheng Hou,Shanshan Lao,Jiayi Li,Ngai Wong,Zhe Zhao,Yujiu Yang
発行日 2024-03-20 15:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク