Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition

要約

教師不要のオンライン知識蒸留 (KD) は、複数の生徒モデルのアンサンブルを共同でトレーニングし、互いから知識を抽出することを目的としています。
既存のオンライン KD メソッドは望ましいパフォーマンスを達成しますが、重要な機能表現情報を無視して、コア知識タイプとしてクラス確率に焦点を当てることがよくあります。
オンライン KD の相互対照学習 (MCL) フレームワークを提示します。
MCL の核となるアイデアは、ネットワークのコホート間で相互に作用し、対照的な分布をオンラインで転送することです。
当社の MCL は、クロスネットワーク埋め込み情報を集約し、2 つのネットワーク間の相互情報の下限を最大化できます。
これにより、各ネットワークが他のネットワークから追加の対照的な知識を学習できるようになり、特徴表現が改善され、視覚認識タスクのパフォーマンスが向上します。
最終レイヤーを超えて、MCL を中間レイヤーに拡張し、メタ最適化によってトレーニングされた適応レイヤー マッチング メカニズムを実行します。
画像分類と視覚認識タスクへの転移学習に関する実験は、レイヤー単位の MCL が最先端のオンライン KD アプローチに対して一貫したパフォーマンスの向上につながることを示しています。
この優位性は、レイヤー単位の MCL がネットワークを誘導して、より優れた機能表現を生成できることを示しています。
私たちのコードは、https://github.com/winycg/L-MCL で公開されています。

要約(オリジナル)

The teacher-free online Knowledge Distillation (KD) aims to train an ensemble of multiple student models collaboratively and distill knowledge from each other. Although existing online KD methods achieve desirable performance, they often focus on class probabilities as the core knowledge type, ignoring the valuable feature representational information. We present a Mutual Contrastive Learning (MCL) framework for online KD. The core idea of MCL is to perform mutual interaction and transfer of contrastive distributions among a cohort of networks in an online manner. Our MCL can aggregate cross-network embedding information and maximize the lower bound to the mutual information between two networks. This enables each network to learn extra contrastive knowledge from others, leading to better feature representations, thus improving the performance of visual recognition tasks. Beyond the final layer, we extend MCL to intermediate layers and perform an adaptive layer-matching mechanism trained by meta-optimization. Experiments on image classification and transfer learning to visual recognition tasks show that layer-wise MCL can lead to consistent performance gains against state-of-the-art online KD approaches. The superiority demonstrates that layer-wise MCL can guide the network to generate better feature representations. Our code is publicly avaliable at https://github.com/winycg/L-MCL.

arxiv情報

著者 Chuanguang Yang,Zhulin An,Helong Zhou,Fuzhen Zhuang,Yongjun Xu,Qian Zhan
発行日 2023-03-27 14:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク