Knowledge Distillation vs. Pretraining from Scratch under a Fixed (Computation) Budget

要約

標準言語モデル (LM) の事前トレーニング (つまり、最初から) と比較して、知識蒸留 (KD) では、通常、ターゲットの生徒モデルよりも大幅に大きい教師モデルを通過する追加の前方パスが必要になります。
そのため、LM 事前トレーニングにおける KD は、ゼロからの事前トレーニングと比較して、事前トレーニング インスタンスのスループットを大幅に低下させます。
LM 事前トレーニングのスケーリングの法則は、より多くのデータでトレーニングされた (つまり、より多くのトークンを処理した) 場合、より小さなモデルがより大きなモデルとの差を縮めることができることを示唆しています。また、固定の計算予算の下では、より小さなモデルはより大きなモデルよりも多くのデータを処理できることがわかります。
したがって、コンピューティング予算を適切に考慮した場合、KD は実際には、より小さい LM を取得するために最初から事前トレーニングするのに最適ではない可能性があると仮説を立てます。
これをテストするために、公平な実験設定で、計算量と事前トレーニング データに関して、ゼロからの事前トレーニングとマスク言語モデリング (MLM) のいくつかの KD 戦略を比較します。
ただし、GLUE でのダウンストリームの結果は、私たちの仮説を裏付けません。ゼロからの事前トレーニングは、固定の計算予算の下で通常の KD と同等のパフォーマンスを発揮しますが、より洗練された KD 戦略、つまり TinyBERT (Jiao et al., 2020) や MiniLM (Wang et al., 2020) は、
、2023)、顕著な差でそれを上回っています。
さらに、固定の計算予算の下でデータを繰り返す必要がある場合、KD は最初から事前トレーニングするよりも大きな利益が得られることがわかりました。

要約(オリジナル)

Compared to standard language model (LM) pretraining (i.e., from scratch), Knowledge Distillation (KD) entails an additional forward pass through a teacher model that is typically substantially larger than the target student model. As such, KD in LM pretraining materially slows down throughput of pretraining instances vis-a-vis pretraining from scratch. Scaling laws of LM pretraining suggest that smaller models can close the gap to larger counterparts if trained on more data (i.e., processing more tokens)-and under a fixed computation budget, smaller models are able be process more data than larger models. We thus hypothesize that KD might, in fact, be suboptimal to pretraining from scratch for obtaining smaller LMs, when appropriately accounting for the compute budget. To test this, we compare pretraining from scratch against several KD strategies for masked language modeling (MLM) in a fair experimental setup, with respect to amount of computation as well as pretraining data. Downstream results on GLUE, however, do not confirm our hypothesis: while pretraining from scratch performs comparably to ordinary KD under a fixed computation budget, more sophisticated KD strategies, namely TinyBERT (Jiao et al., 2020) and MiniLM (Wang et al., 2023), outperform it by a notable margin. We further find that KD yields larger gains over pretraining from scratch when the data must be repeated under the fixed computation budget.

arxiv情報

著者 Minh Duc Bui,Fabian David Schmidt,Goran Glavaš,Katharina von der Wense
発行日 2024-04-30 07:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク