Heterogeneous Generative Knowledge Distillation with Masked Image Modeling

要約

通常、小規模な CNN ベースのモデルは、計算リソースが制限されたエッジ デバイスに展開する前に、大規模なモデルから知識を転送する必要があります。
マスク イメージ モデリング (MIM) 手法は、さまざまな視覚タスクで大きな成功を収めていますが、異種のディープ モデルの知識の蒸留についてはほとんど解明されていません。
その理由は主に、Transformer ベースの大規模モデルと CNN ベースの小規模ネットワーク間の大きな矛盾によるものです。
この論文では、MIM に基づく最初の異種生成知識蒸留 (H-GKD) を開発します。これにより、生成的な自己教師ありの方法で、大規模な Transformer モデルから小規模な CNN ベースのモデルに知識を効率的に転送できます。
私たちの手法は、UNet スタイルの生徒をスパース畳み込みでトレーニングすることにより、Transformer ベースのモデルと CNN の間に橋渡しをします。これにより、マスクされたモデリングを介して教師によって推論された視覚表現を効果的に模倣できます。
私たちの方法は、高度な生成手法を使用して事前トレーニングできる、異種教師モデルからデータの視覚的表現と分布を学習するための、シンプルかつ効果的な学習パラダイムです。
広範な実験により、さまざまなモデルやサイズにうまく適応し、画像分類、オブジェクト検出、セマンティック セグメンテーション タスクにおいて常に最先端のパフォーマンスを達成できることが示されています。
たとえば、Imagenet 1K データセットでは、H-GKD により Resnet50 (スパース) の精度が 76.98% から 80.01% に向上します。

要約(オリジナル)

Small CNN-based models usually require transferring knowledge from a large model before they are deployed in computationally resource-limited edge devices. Masked image modeling (MIM) methods achieve great success in various visual tasks but remain largely unexplored in knowledge distillation for heterogeneous deep models. The reason is mainly due to the significant discrepancy between the Transformer-based large model and the CNN-based small network. In this paper, we develop the first Heterogeneous Generative Knowledge Distillation (H-GKD) based on MIM, which can efficiently transfer knowledge from large Transformer models to small CNN-based models in a generative self-supervised fashion. Our method builds a bridge between Transformer-based models and CNNs by training a UNet-style student with sparse convolution, which can effectively mimic the visual representation inferred by a teacher over masked modeling. Our method is a simple yet effective learning paradigm to learn the visual representation and distribution of data from heterogeneous teacher models, which can be pre-trained using advanced generative methods. Extensive experiments show that it adapts well to various models and sizes, consistently achieving state-of-the-art performance in image classification, object detection, and semantic segmentation tasks. For example, in the Imagenet 1K dataset, H-GKD improves the accuracy of Resnet50 (sparse) from 76.98% to 80.01%.

arxiv情報

著者 Ziming Wang,Shumin Han,Xiaodi Wang,Jing Hao,Xianbin Cao,Baochang Zhang
発行日 2024-01-11 14:07:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク