A Survey on Recent Teacher-student Learning Studies

要約

タイトル:最近の教師-生徒学習研究に関する調査
要約:
– 知識蒸留とは、複雑なディープニューラルネットワーク(DNN)の知識を、より小さく高速なDNNに転移する手法で、精度を保持する。
– 知識蒸留の最近のバリエーションには、教育アシスタント蒸留、カリキュラム蒸留、マスク蒸留、およびデカップリング蒸留があり、追加コンポーネントの導入や学習プロセスの変更によって、知識蒸留の性能を向上させることを目的としている。
– 教育アシスタント蒸留には、教育アシスタントと呼ばれる中間モデルが関与しており、カリキュラム蒸留は人間の教育に似たカリキュラムに従う。
– マスク蒸留は、教師が学んだアテンションメカニズムを転移することに焦点を当てており、デカップリング蒸留は、蒸留損失をタスク損失から切り離す。
– これらの知識蒸留のバリエーションは、知識蒸留の性能を向上させる上で有望な結果を示している。

要約(オリジナル)

Knowledge distillation is a method of transferring the knowledge from a complex deep neural network (DNN) to a smaller and faster DNN, while preserving its accuracy. Recent variants of knowledge distillation include teaching assistant distillation, curriculum distillation, mask distillation, and decoupling distillation, which aim to improve the performance of knowledge distillation by introducing additional components or by changing the learning process. Teaching assistant distillation involves an intermediate model called the teaching assistant, while curriculum distillation follows a curriculum similar to human education. Mask distillation focuses on transferring the attention mechanism learned by the teacher, and decoupling distillation decouples the distillation loss from the task loss. Overall, these variants of knowledge distillation have shown promising results in improving the performance of knowledge distillation.

arxiv情報

著者 Minghong Gao
発行日 2023-04-10 14:30:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク