Knowledge distillation: A good teacher is patient and consistent

要約

最先端のパフォーマンスを実現する大規模モデルと、実際のアプリケーションで手頃な価格のモデルとの間で、コンピュータービジョンの不一致が拡大しています。
このホワイトペーパーでは、この問題に対処し、これら2つのタイプのモデル間のギャップを大幅に埋めます。
実証的調査を通じて、必ずしも新しい方法を提案することを目的とはしていませんが、最先端の大規模モデルを実際に手頃な価格にするための堅牢で効果的なレシピを特定するよう努めています。
正しく実行された場合、知識の蒸留は、パフォーマンスを損なうことなく、大きなモデルのサイズを縮小するための強力なツールになり得ることを示しています。
特に、蒸留の効果に劇的な影響を与える可能性のある特定の暗黙の設計選択があることを明らかにします。
私たちの重要な貢献は、以前は文献に明確に示されていなかったこれらの設計の選択を明確に特定することです。
包括的な実証研究によって調査結果を裏付け、幅広いビジョンデータセットで説得力のある結果を示し、特に、82.8%のトップ1精度を達成するImageNet用の最先端のResNet-50モデルを取得します。

要約(オリジナル)

There is a growing discrepancy in computer vision between large-scale models that achieve state-of-the-art performance and models that are affordable in practical applications. In this paper we address this issue and significantly bridge the gap between these two types of models. Throughout our empirical investigation we do not aim to necessarily propose a new method, but strive to identify a robust and effective recipe for making state-of-the-art large scale models affordable in practice. We demonstrate that, when performed correctly, knowledge distillation can be a powerful tool for reducing the size of large models without compromising their performance. In particular, we uncover that there are certain implicit design choices, which may drastically affect the effectiveness of distillation. Our key contribution is the explicit identification of these design choices, which were not previously articulated in the literature. We back up our findings by a comprehensive empirical study, demonstrate compelling results on a wide range of vision datasets and, in particular, obtain a state-of-the-art ResNet-50 model for ImageNet, which achieves 82.8% top-1 accuracy.

arxiv情報

著者 Lucas Beyer,Xiaohua Zhai,Amélie Royer,Larisa Markeeva,Rohan Anil,Alexander Kolesnikov
発行日 2022-06-21 09:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク