DisCo: Remedy Self-supervised Learning on Lightweight Models with Distilled Contrastive Learning

要約

自己教師付き表現学習(SSL)はコミュニティから広く注目されているが、最近の研究では、モデルサイズが小さくなるとその性能が崖っぷちになると主張されている。現在の方法は主に対照学習に頼ってネットワークを学習しているが、本研究では、この問題を大幅に緩和する、シンプルかつ効果的なDistilled Contrastive Learning (DisCo)を提案する。具体的には、主流のSSL手法で得られる最終埋め込みが最も実のある情報を含んでいることを見出し、生徒の最終埋め込みが教師のそれと一致するように制約することで、教師の知識を最大限に軽量モデルに伝達するための最終埋め込みを蒸留することを提案する。また、実験では、Distilling BottleNeckと呼ばれる現象が存在することを発見し、この問題を緩和するために埋め込み次元を拡大することを提示する。本手法では、軽量化モデルに対して、展開時に余分なパラメータを導入しない。実験の結果、本手法は全ての軽量モデルにおいて最先端技術を達成することが示された。特に、ResNet-101/ResNet-50を教師としてEfficientNet-B0を学習させた場合、EfficientNet-B0のImageNetに対する線形結果はResNet-101/ResNet-50に非常に近く、パラメータ数はResNet-101/ResNet-50のわずか9.4%/16.3%であることが確認されました。コードは https://github. com/Yuting-Gao/DisCo-pytorch で公開されています。

要約(オリジナル)

While self-supervised representation learning (SSL) has received widespread attention from the community, recent research argue that its performance will suffer a cliff fall when the model size decreases. The current method mainly relies on contrastive learning to train the network and in this work, we propose a simple yet effective Distilled Contrastive Learning (DisCo) to ease the issue by a large margin. Specifically, we find the final embedding obtained by the mainstream SSL methods contains the most fruitful information, and propose to distill the final embedding to maximally transmit a teacher’s knowledge to a lightweight model by constraining the last embedding of the student to be consistent with that of the teacher. In addition, in the experiment, we find that there exists a phenomenon termed Distilling BottleNeck and present to enlarge the embedding dimension to alleviate this problem. Our method does not introduce any extra parameter to lightweight models during deployment. Experimental results demonstrate that our method achieves the state-of-the-art on all lightweight models. Particularly, when ResNet-101/ResNet-50 is used as teacher to teach EfficientNet-B0, the linear result of EfficientNet-B0 on ImageNet is very close to ResNet-101/ResNet-50, but the number of parameters of EfficientNet-B0 is only 9.4\%/16.3\% of ResNet-101/ResNet-50. Code is available at https://github. com/Yuting-Gao/DisCo-pytorch.

arxiv情報

著者 Yuting Gao,Jia-Xin Zhuang,Shaohui Lin,Hao Cheng,Xing Sun,Ke Li,Chunhua Shen
発行日 2022-07-04 14:03:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク