Teacher-Student Architecture for Knowledge Distillation: A Survey

要約

ディープ ニューラル ネットワーク (DNN) は、多くの分野で大規模な問題を解決する強力な能力を示していますが、そのような DNN はパラメータが膨大であるため、現実世界のシステムに導入するのが困難です。
この問題に取り組むために、教師と生徒のアーキテクチャが提案されました。このアーキテクチャでは、少数のパラメーターを持つ単純な生徒ネットワークが、多くのパラメーターを持つ深い教師ネットワークと同等のパフォーマンスを達成できます。
最近、教師と生徒のアーキテクチャは、知識の圧縮、知識の拡張、知識の適応、知識の強化など、さまざまな知識蒸留 (KD) の目的で効果的かつ広く採用されています。
現在の研究では、教師と生徒のアーキテクチャの助けを借りて、軽量かつ一般化された生徒ネットワークを通じて複数の蒸留目標を達成できます。
主に知識の圧縮に焦点を当てた既存の KD 調査とは異なり、この調査ではまず、複数の蒸留目標にわたって教師と生徒のアーキテクチャを調査します。
この調査では、さまざまな知識表現とそれに対応する最適化目標について紹介します。
さらに、代表的な学習アルゴリズムと効果的な蒸留スキームを使用して、教師と生徒のアーキテクチャの体系的な概要を提供します。
この調査では、分類、認識、生成、ランキング、回帰など、複数の目的にわたる教師と生徒のアーキテクチャの最近の応用も要約されています。
最後に、アーキテクチャ設計、知識の質、回帰ベースの学習の理論的研究にそれぞれ焦点を当てて、KD における潜在的な研究の方向性を調査します。
この包括的な調査を通じて、業界の実務者と学術コミュニティは、さまざまな蒸留目的に合わせて教師と生徒のアーキテクチャを効果的に設計、学習、および適用するための貴重な洞察とガイドラインを得ることができます。

要約(オリジナル)

Although Deep neural networks (DNNs) have shown a strong capacity to solve large-scale problems in many areas, such DNNs are hard to be deployed in real-world systems due to their voluminous parameters. To tackle this issue, Teacher-Student architectures were proposed, where simple student networks with a few parameters can achieve comparable performance to deep teacher networks with many parameters. Recently, Teacher-Student architectures have been effectively and widely embraced on various knowledge distillation (KD) objectives, including knowledge compression, knowledge expansion, knowledge adaptation, and knowledge enhancement. With the help of Teacher-Student architectures, current studies are able to achieve multiple distillation objectives through lightweight and generalized student networks. Different from existing KD surveys that primarily focus on knowledge compression, this survey first explores Teacher-Student architectures across multiple distillation objectives. This survey presents an introduction to various knowledge representations and their corresponding optimization objectives. Additionally, we provide a systematic overview of Teacher-Student architectures with representative learning algorithms and effective distillation schemes. This survey also summarizes recent applications of Teacher-Student architectures across multiple purposes, including classification, recognition, generation, ranking, and regression. Lastly, potential research directions in KD are investigated, focusing on architecture design, knowledge quality, and theoretical studies of regression-based learning, respectively. Through this comprehensive survey, industry practitioners and the academic community can gain valuable insights and guidelines for effectively designing, learning, and applying Teacher-Student architectures on various distillation objectives.

arxiv情報

著者 Chengming Hu,Xuan Li,Dan Liu,Haolun Wu,Xi Chen,Ju Wang,Xue Liu
発行日 2023-08-08 14:09:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク