f-Divergence Minimization for Sequence-Level Knowledge Distillation

要約

知識蒸留 (KD) は、大規模なモデルから小規模なモデルに知識を移すプロセスです。
増大し続ける言語モデルの圧縮要求に押されて、自然言語処理コミュニティでの注目が高まっています。
この研究では、一般化された f-ダイバージェンス関数を最小化するものとしてシーケンスレベルの知識の蒸留を定式化する f-DISTILL フレームワークを提案します。
私たちは、フレームワークの下で 4 つの蒸留バリアントを提案し、既存の SeqKD および ENGINE アプローチが f-DISTILL 法の近似であることを示します。
さらに、f-DISTILL の段階的分解を導き出し、扱いにくいシーケンス レベルの発散を、扱いやすい方法で計算できるワード レベルの損失に削減します。
4 つのデータセットにわたる実験では、私たちの方法が既存の KD アプローチよりも優れていること、また対称的な蒸留損失によって生徒が教師の分布からより適切に学習できることが示されました。

要約(オリジナル)

Knowledge distillation (KD) is the process of transferring knowledge from a large model to a small one. It has gained increasing attention in the natural language processing community, driven by the demands of compressing ever-growing language models. In this work, we propose an f-DISTILL framework, which formulates sequence-level knowledge distillation as minimizing a generalized f-divergence function. We propose four distilling variants under our framework and show that existing SeqKD and ENGINE approaches are approximations of our f-DISTILL methods. We further derive step-wise decomposition for our f-DISTILL, reducing intractable sequence-level divergence to word-level losses that can be computed in a tractable manner. Experiments across four datasets show that our methods outperform existing KD approaches, and that our symmetric distilling losses can better force the student to learn from the teacher distribution.

arxiv情報

著者 Yuqiao Wen,Zichao Li,Wenyu Du,Lili Mou
発行日 2023-07-27 20:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, I.2.6 パーマリンク