Neural Architecture Search for Effective Teacher-Student Knowledge Transfer in Language Models

要約

大規模な事前トレーニング済み言語モデルは、さまざまなダウンストリーム タスクで最先端の結果を達成しています。
小規模な学生モデルの知識蒸留 (KD) は、非効率性に対処し、リソースに制約のある環境での展開を可能にします。
ただし、学生は大規模なコーパスで事前にトレーニングされた一連の既存のオプションから手動で選択されるため、KD は依然として効果的ではありません。
このホワイト ペーパーでは、KD-NAS を提案します。KD-NAS は、特定の自然言語タスクについて、教師から抽出するための最適な生徒モデルを見つけるために、知識抽出プロセスによって導かれるニューラル アーキテクチャ検索 (NAS) を使用します。
検索プロセスの各エピソードで、NAS コントローラーは、ダウンストリーム タスクの精度と推論のレイテンシーの組み合わせに基づいて報酬を予測します。
最上位の候補アーキテクチャは、小さなプロキシ セットで教師から抽出されます。
最後に、報酬が最も高いアーキテクチャが選択され、完全なダウンストリーム タスク トレーニング セットが抽出されます。
MNLI タスクを抽出すると、KD-NAS モデルは、文献で入手可能な手作りの学生アーキテクチャに関して、同等の GPU レイテンシで GLUE タスクの精度を 2 ポイント向上させます。
Knowledge Distillation を使用すると、このモデルは、BERT ベースの教師と比較して、GPU レイテンシで 1.4 倍のスピードアップ (CPU で 3.2 倍のスピードアップ) を達成しながら、GLUE タスク (CoLA なし) で 97% のパフォーマンスを維持します。
また、GLUE ベンチマークで手作りの学生モデルと同等のパフォーマンスを持つアーキテクチャを取得しますが、GPU レイテンシが 15% 高速化 (CPU レイテンシが 20% 高速化) し、パラメーターの数が 0.8 倍になります。

要約(オリジナル)

Large pre-trained language models have achieved state-of-the-art results on a variety of downstream tasks. Knowledge Distillation (KD) of a smaller student model addresses their inefficiency, allowing for deployment in resource-constraint environments. KD however remains ineffective, as the student is manually selected from a set of existing options already pre-trained on large corpora, a sub-optimal choice within the space of all possible student architectures. This paper proposes KD-NAS, the use of Neural Architecture Search (NAS) guided by the Knowledge Distillation process to find the optimal student model for distillation from a teacher, for a given natural language task. In each episode of the search process, a NAS controller predicts a reward based on a combination of accuracy on the downstream task and latency of inference. The top candidate architectures are then distilled from the teacher on a small proxy set. Finally the architecture(s) with the highest reward is selected, and distilled on the full downstream task training set. When distilling on the MNLI task, our KD-NAS model produces a 2 point improvement in accuracy on GLUE tasks with equivalent GPU latency with respect to a hand-crafted student architecture available in the literature. Using Knowledge Distillation, this model also achieves a 1.4x speedup in GPU Latency (3.2x speedup on CPU) with respect to a BERT-Base Teacher, while maintaining 97% performance on GLUE Tasks (without CoLA). We also obtain an architecture with equivalent performance as the hand-crafted student model on the GLUE benchmark, but with a 15% speedup in GPU latency (20% speedup in CPU latency) and 0.8 times the number of parameters

arxiv情報

著者 Aashka Trivedi,Takuma Udagawa,Michele Merler,Rameswar Panda,Yousef El-Kurdi,Bishwaranjan Bhattacharjee
発行日 2023-03-16 20:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク