DOT: A Distillation-Oriented Trainer

要約

知識の蒸留では、タスクと蒸留の損失を介して、大規模なモデルから小規模なモデルに知識が転送されます。
この論文では、タスク損失と蒸留損失の間のトレードオフ、つまり蒸留損失の導入によりタスク損失の収束が制限されることを観察します。
このトレードオフは、蒸留損失の最適化が不十分であることに起因すると考えられます。
その理由は、教師の方が生徒よりもタスク損失が低く、蒸留損失が低いほど生徒が教師に近づくため、より収束したタスク損失が得られる可能性があるためです。
このトレードオフを打破するために、私たちは蒸留指向トレーナー (DOT) を提案します。
DOT はタスクの勾配と蒸留損失を個別に考慮し、蒸留損失により大きな運動量を適用して最適化を加速します。
我々は、DOT がトレードオフを解消する、つまり両方の損失が十分に最適化されることを経験的に証明しています。
広範な実験により、DOT の優位性が検証されています。
特に、DOT は、ResNet50-MobileNetV1 ペアの ImageNet-1k で +2.59% の精度向上を達成しています。
結論的には、DOT は損失収束とモデルの一般化の点でスチューデントの最適化特性に大きな利益をもたらします。
コードは公開されます。

要約(オリジナル)

Knowledge distillation transfers knowledge from a large model to a small one via task and distillation losses. In this paper, we observe a trade-off between task and distillation losses, i.e., introducing distillation loss limits the convergence of task loss. We believe that the trade-off results from the insufficient optimization of distillation loss. The reason is: The teacher has a lower task loss than the student, and a lower distillation loss drives the student more similar to the teacher, then a better-converged task loss could be obtained. To break the trade-off, we propose the Distillation-Oriented Trainer (DOT). DOT separately considers gradients of task and distillation losses, then applies a larger momentum to distillation loss to accelerate its optimization. We empirically prove that DOT breaks the trade-off, i.e., both losses are sufficiently optimized. Extensive experiments validate the superiority of DOT. Notably, DOT achieves a +2.59% accuracy improvement on ImageNet-1k for the ResNet50-MobileNetV1 pair. Conclusively, DOT greatly benefits the student’s optimization properties in terms of loss convergence and model generalization. Code will be made publicly available.

arxiv情報

著者 Borui Zhao,Quan Cui,Renjie Song,Jiajun Liang
発行日 2023-07-17 12:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク