InDistill: Information flow-preserving knowledge distillation for model compression

要約

この論文では、重要な情報フロー パスを重量級の教師から重量級の生徒に伝達するための統一フレームワークで知識の蒸留とチャネル プルーニングを組み合わせたモデル圧縮アプローチである InDistill を紹介します。
このような情報は通常、蒸留前のエンコード段階により、以前の方法では折りたたまれます。
対照的に、InDistill は、教師の中間レイヤーに適用される枝刈り操作を利用して、その幅を対応する生徒レイヤーの幅まで縮小します。
このようにして、アーキテクチャの調整を強制し、エンコード段階を必要とせずに中間層を直接抽出できるようにします。
さらに、各層の蒸留難易度と情報の流れが形成される重要な学習期間を考慮したカリキュラム学習ベースのトレーニングスキームが採用されています。
提案された手法は、CIFAR-10、CUB-200、FashionMNIST の 3 つの標準ベンチマークで、それぞれ 3.08%、14.27%、1% mAP だけでなく、より困難な評価設定でも最先端のパフォーマンスを上回っています。
つまり、ImageNet と CIFAR-100 はそれぞれ 1.97% と 5.65% mAP です。

要約(オリジナル)

In this paper we introduce InDistill, a model compression approach that combines knowledge distillation and channel pruning in a unified framework for the transfer of the critical information flow paths from a heavyweight teacher to a lightweight student. Such information is typically collapsed in previous methods due to an encoding stage prior to distillation. By contrast, InDistill leverages a pruning operation applied to the teacher’s intermediate layers reducing their width to the corresponding student layers’ width. In that way, we force architectural alignment enabling the intermediate layers to be directly distilled without the need of an encoding stage. Additionally, a curriculum learning-based training scheme is adopted considering the distillation difficulty of each layer and the critical learning periods in which the information flow paths are created. The proposed method surpasses state-of-the-art performance on three standard benchmarks, i.e. CIFAR-10, CUB-200, and FashionMNIST by 3.08%, 14.27%, and 1% mAP, respectively, as well as on more challenging evaluation settings, i.e. ImageNet and CIFAR-100 by 1.97% and 5.65% mAP, respectively.

arxiv情報

著者 Ioannis Sarridis,Christos Koutlis,Giorgos Kordopatis-Zilos,Ioannis Kompatsiaris,Symeon Papadopoulos
発行日 2023-06-16 14:32:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク