要約
タイトル:MiniDisc:言語モデル圧縮のための最小蒸留スケジュール
要約:
– 言語モデルの蒸留において、教師のキャパシティと生徒のキャパシティに大きな差がある場合、従来の方法では効果が低下することがわかってきている。
– そのため、教師のアシスタントを介して、教師から知識を生徒に伝える方法が提案されてきた。
– しかし、従来の教師アシスタントベースの方法では、最適な教師アシスタントをスケジュールするために最大限の試行が必要であった。
– そこで、最適な教師アシスタントを最小限の試行でスケジュールするための最小蒸留スケジュール(MiniDisc)を提案する。
– MiniDiscは、教師アシスタントのスケールとパフォーマンスが、生徒のパフォーマンスと正の相関があることに注目し、$\lambda$トレードオフで教師アシスタントの最適性を測定する設計になっている。
– MiniDiscは、後述のサンドイッチフレームワークで最適な教師アシスタントをスケジュールすることができる。
– GLUEでの実験を含む広範な実験でMiniDiscを評価し、最新のベースラインと比較して効率が向上することが示された。
– さらに、MiniDiscを数十億のパラメータを持つ言語モデルに適用し、そのスケーラビリティを示した。
要約(オリジナル)
Recent studies have uncovered that language model distillation is less effective when facing a large capacity gap between the teacher and the student, and introduced teacher assistant-based distillation to bridge the gap. As a connection, the scale and the performance of the teacher assistant is of vital importance to bring the knowledge from the teacher to the student. However, existing teacher assistant-based methods require maximally many trials before scheduling an optimal teacher assistant. To this end, we propose a minimal distillation schedule (MiniDisc) for scheduling the optimal teacher assistant in minimally one trial. In particular, motivated by the finding that the performance of the student is positively correlated to the scale-performance tradeoff of the teacher assistant, MiniDisc is designed with a $\lambda$-tradeoff to measure the optimality of the teacher assistant without trial distillation to the student. MiniDisc then can schedule the optimal teacher assistant with the best $\lambda$-tradeoff in a sandwich framework. MiniDisc is evaluated with an extensive set of experiments on GLUE. Experimental results demonstrate the improved efficiency our MiniDisc compared to several state-of-the-art baselines. We further apply MiniDisc to a language model with billions of parameters and show its scalability.
arxiv情報
| 著者 | Chen Zhang,Yang Yang,Qifan Wang,Jiahao Liu,Jingang Wang,Yunsen Xian,Wei Wu,Dawei Song |
| 発行日 | 2023-05-04 05:36:51+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI