Quantifying the Knowledge in a DNN to Explain Knowledge Distillation for Classification

要約

従来のゼロからの学習と比較して、知識の蒸留により、DNN が優れたパフォーマンスを達成することがあります。
この論文は、情報理論に基づいて、分類のためにDNNの中間層にエンコードされた知識ポイントを定量化する知識蒸留の成功を説明するための新しい視点を提供します。
この目的のために、DNN での信号処理をレイヤー単位の情報破棄と見なします。
知識ポイントは入力ユニットと呼ばれ、その情報は他の入力ユニットよりもはるかに破棄されません。
このように、知識ポイントの定量化に基づく知識の蒸留のための 3 つの仮説を提案します。
1. 知識の蒸留からの DNN 学習は、ゼロからの DNN 学習よりも多くの知識ポイントをエンコードします。
2. 知識の蒸留により、DNN はさまざまな知識ポイントを同時に学習する可能性が高くなります。
それに比べて、ゼロから学習する DNN は、さまざまな知識ポイントを順番にエンコードする傾向があります。
3. 知識の蒸留からの DNN 学習は、多くの場合、ゼロからの DNN 学習よりも安定して最適化されます。
上記の仮説を検証するために、前景オブジェクトの注釈を使用して 3 種類のメトリックを設計し、DNN の特徴表現、\textit{i.e.} 知識ポイントの量と質、さまざまな知識ポイントの学習速度、および
最適化方向の安定性。
実験では、さまざまな分類タスク、つまり、画像分類、3D ポイント クラウド分類、バイナリ センチメント分類、質問応答のさまざまな DNN を診断し、上記の仮説を検証しました。

要約(オリジナル)

Compared to traditional learning from scratch, knowledge distillation sometimes makes the DNN achieve superior performance. This paper provides a new perspective to explain the success of knowledge distillation, i.e., quantifying knowledge points encoded in intermediate layers of a DNN for classification, based on the information theory. To this end, we consider the signal processing in a DNN as the layer-wise information discarding. A knowledge point is referred to as an input unit, whose information is much less discarded than other input units. Thus, we propose three hypotheses for knowledge distillation based on the quantification of knowledge points. 1. The DNN learning from knowledge distillation encodes more knowledge points than the DNN learning from scratch. 2. Knowledge distillation makes the DNN more likely to learn different knowledge points simultaneously. In comparison, the DNN learning from scratch tends to encode various knowledge points sequentially. 3. The DNN learning from knowledge distillation is often optimized more stably than the DNN learning from scratch. In order to verify the above hypotheses, we design three types of metrics with annotations of foreground objects to analyze feature representations of the DNN, \textit{i.e.} the quantity and the quality of knowledge points, the learning speed of different knowledge points, and the stability of optimization directions. In experiments, we diagnosed various DNNs for different classification tasks, i.e., image classification, 3D point cloud classification, binary sentiment classification, and question answering, which verified above hypotheses.

arxiv情報

著者 Quanshi Zhang,Xu Cheng,Yilan Chen,Zhefan Rao
発行日 2022-08-18 09:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク