Understanding the Gains from Repeated Self-Distillation

要約

自己蒸留は、生徒モデルが教師モデルと同じアーキテクチャを持つ特別なタイプの知識蒸留である。同じアーキテクチャと同じ学習データを使用しているにもかかわらず、自己蒸留は、特に繰り返し適用された場合に性能が向上することが経験的に観察されている。このようなプロセスには、根本的な疑問がある:自己蒸留を複数段階適用することで、どれだけの利得が得られるのだろうか?この相対的な利得を調査するために、我々は線形回帰という単純だが典型的な課題を研究することを提案する。我々の分析によれば、多段階自己蒸留によって達成される過剰リスクは、1段階の自己蒸留よりも大幅に改善され、過剰リスクを$d$($d$は入力次元)と同じ大きさだけ低減できる。UCIリポジトリからの回帰タスクの実証結果は、学習モデルのリスク(MSE)が最大47%減少することを示している。

要約(オリジナル)

Self-Distillation is a special type of knowledge distillation where the student model has the same architecture as the teacher model. Despite using the same architecture and the same training data, self-distillation has been empirically observed to improve performance, especially when applied repeatedly. For such a process, there is a fundamental question of interest: How much gain is possible by applying multiple steps of self-distillation? To investigate this relative gain, we propose studying the simple but canonical task of linear regression. Our analysis shows that the excess risk achieved by multi-step self-distillation can significantly improve upon a single step of self-distillation, reducing the excess risk by a factor as large as $d$, where $d$ is the input dimension. Empirical results on regression tasks from the UCI repository show a reduction in the learnt model’s risk (MSE) by up to 47%.

arxiv情報

著者 Divyansh Pareek,Simon S. Du,Sewoong Oh
発行日 2024-07-05 15:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク