A Systematic Study of Knowledge Distillation for Natural Language Generation with Pseudo-Target Training

要約

【タイトル】擬似ターゲットトレーニングを用いたナチュラルランゲージジェネレーションにおける知識蒸留の系統的研究

【要約】

– 自然言語生成(NLG)モデルは、計算およびストレージ要件が大きく、現実の世界で何百万人ものユーザーにサービスを提供するためには圧縮することが重要である。
– 本研究では、大規模な教師モデルを小さな生徒モデルに模倣させる知識蒸留(KD)技術のポテンシャルを研究することを目的とする。
– 従来の研究とは異なり、特定のNLGタスクと特定のデータセットに最適化されたモデルの圧縮を目的とする。
– 実際のアプリケーションでは、ラベル付きデータに加えて、タスク固有の非ラベル付きデータが豊富にあることが多いため、KDによる高い圧縮率を達成するためには重要である。
– 本研究では、現実的な仮定の下で、様々なNLGタスクに対するタスク固有のKD技術の系統的な研究を行う。
– NLG蒸留の特別な特性、特に露出バイアス問題について説明する。
– 次に、シーケンスレベルのKDに関する既存の研究を大幅に拡張した、Pseudo-Target (PT) augmentation方法のファミリーを導出する。
– 著者らは、複数の教師および生徒によって生成された複数のPTにワードレベルのKDを適用するJoint-Teaching方法を提案する。
– 本研究は、実用的なモデル設計の観察結果を提供し、NLGにおけるタスク固有のKDのPTトレーニングの有効性を示している。

要約(オリジナル)

Modern Natural Language Generation (NLG) models come with massive computational and storage requirements. In this work, we study the potential of compressing them, which is crucial for real-world applications serving millions of users. We focus on Knowledge Distillation (KD) techniques, in which a small student model learns to imitate a large teacher model, allowing to transfer knowledge from the teacher to the student. In contrast to much of the previous work, our goal is to optimize the model for a specific NLG task and a specific dataset. Typically, in real-world applications, in addition to labeled data there is abundant unlabeled task-specific data, which is crucial for attaining high compression rates via KD. In this work, we conduct a systematic study of task-specific KD techniques for various NLG tasks under realistic assumptions. We discuss the special characteristics of NLG distillation and particularly the exposure bias problem. Following, we derive a family of Pseudo-Target (PT) augmentation methods, substantially extending prior work on sequence-level KD. We propose the Joint-Teaching method for NLG distillation, which applies word-level KD to multiple PTs generated by both the teacher and the student. Our study provides practical model design observations and demonstrates the effectiveness of PT training for task-specific KD in NLG.

arxiv情報

著者 Nitay Calderon,Subhabrata Mukherjee,Roi Reichart,Amir Kantor
発行日 2023-05-03 10:49:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク