要約
小規模の学生モデルが事前トレーニングされた大規模な教師モデルから学習する知識の蒸留は、\citep{hinton2015distilling} の独創的な研究以来、実質的な実証的成功を収めてきました。
知識の蒸留の利点を探るこれまでの理論的研究にも関わらず、重要な疑問は未解決のままです。それは、なぜ教師からのソフトラベルトレーニングでは、ハードラベルを使用して小さなニューラルネットワークを直接トレーニングするよりも、必要なニューロンが大幅に少ないのでしょうか?
これに対処するために、最初に、二値分類問題に関する単純なニューラル ネットワーク モデルを使用した、動機付けとなる実験結果を提示します。
これらの結果は、ソフトラベル トレーニングが一貫して精度においてハードラベル トレーニングを上回り、データセットの分類がますます困難になるにつれてパフォーマンスのギャップがより顕著になることを示しています。
次に、2 層ニューラル ネットワーク モデルに基づく理論的貢献によって、これらの観察を実証します。
具体的には、勾配降下法を使用したソフトラベル トレーニングでは、$\ より小さいエポックにわたって平均された分類損失を達成するのに $O\left(\frac{1}{\gamma^2 \epsilon}\right)$ ニューロンのみが必要であることを示します。
epsilon > 0$、ここで $\gamma$ は制限カーネルの分離マージンです。
対照的に、ハードラベル トレーニングには $O\left(\frac{1}{\gamma^4} \cdot \ln\left(\frac{1}{\epsilon}\right)\right)$ ニューロンが必要です。
\citep{ji2020polylogarithmic} の勾配降下解析の適応バージョンから得られます。
これは、 $\gamma \leq \epsilon$ の場合、つまりデータセットの分類が難しい場合、ソフトラベル トレーニングのニューロン要件がハードラベル トレーニングのニューロン要件よりも大幅に低くなる可能性があることを意味します。
最後に、ディープ ニューラル ネットワークに関する実験結果を紹介し、これらの理論的発見をさらに検証します。
要約(オリジナル)
Knowledge distillation, where a small student model learns from a pre-trained large teacher model, has achieved substantial empirical success since the seminal work of \citep{hinton2015distilling}. Despite prior theoretical studies exploring the benefits of knowledge distillation, an important question remains unanswered: why does soft-label training from the teacher require significantly fewer neurons than directly training a small neural network with hard labels? To address this, we first present motivating experimental results using simple neural network models on a binary classification problem. These results demonstrate that soft-label training consistently outperforms hard-label training in accuracy, with the performance gap becoming more pronounced as the dataset becomes increasingly difficult to classify. We then substantiate these observations with a theoretical contribution based on two-layer neural network models. Specifically, we show that soft-label training using gradient descent requires only $O\left(\frac{1}{\gamma^2 \epsilon}\right)$ neurons to achieve a classification loss averaged over epochs smaller than some $\epsilon > 0$, where $\gamma$ is the separation margin of the limiting kernel. In contrast, hard-label training requires $O\left(\frac{1}{\gamma^4} \cdot \ln\left(\frac{1}{\epsilon}\right)\right)$ neurons, as derived from an adapted version of the gradient descent analysis in \citep{ji2020polylogarithmic}. This implies that when $\gamma \leq \epsilon$, i.e., when the dataset is challenging to classify, the neuron requirement for soft-label training can be significantly lower than that for hard-label training. Finally, we present experimental results on deep neural networks, further validating these theoretical findings.
arxiv情報
著者 | Saptarshi Mandal,Xiaojun Lin,R. Srikant |
発行日 | 2024-12-12 18:54:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google