要約
知識の蒸留では、単一の全能の教師ネットワークではすべての問題を解決できないため、最近では複数の教師ベースの知識の蒸留が研究されています。
ただし、未熟な教師が誤った知識を生徒に伝えてしまう可能性があるため、改善が期待ほど良くない場合もあります。
この論文では、この制限を克服し、複数のネットワークの有効性を活用するために、複数のネットワークをそれぞれ教師と生徒のグループに分割します。
つまり、生徒グループは教師の知識を学ぶ必要がある未熟なネットワークの集合であるのに対し、教師グループはうまく教えることができる選ばれたネットワークで構成されています。
私たちは、反復ごとに生徒グループの上位ネットワークが教師グループに昇格できるオンライン役割変更戦略を提案します。
学生グループのエラーサンプルを使用して教師グループをトレーニングし、教師グループの知識を洗練させた後、教師グループから学生グループに協力的な知識をうまく伝達します。
高い性能を実現するCIFAR-10、CIFAR-100、ImageNet上で提案手法の優位性を検証する。
さらに、ResNet、WRN、VGG、Mobilenet、Shufflenet などのさまざまなバックボーン アーキテクチャを使用したこの方法の一般性を示します。
要約(オリジナル)
In knowledge distillation, since a single, omnipotent teacher network cannot solve all problems, multiple teacher-based knowledge distillations have been studied recently. However, sometimes their improvements are not as good as expected because some immature teachers may transfer the false knowledge to the student. In this paper, to overcome this limitation and take the efficacy of the multiple networks, we divide the multiple networks into teacher and student groups, respectively. That is, the student group is a set of immature networks that require learning the teacher’s knowledge, while the teacher group consists of the selected networks that are capable of teaching successfully. We propose our online role change strategy where the top-ranked networks in the student group are able to promote to the teacher group at every iteration. After training the teacher group using the error samples of the student group to refine the teacher group’s knowledge, we transfer the collaborative knowledge from the teacher group to the student group successfully. We verify the superiority of the proposed method on CIFAR-10, CIFAR-100, and ImageNet which achieves high performance. We further show the generality of our method with various backbone architectures such as ResNet, WRN, VGG, Mobilenet, and Shufflenet.
arxiv情報
著者 | Junyong Choi,Hyeon Cho,Seokhwa Cheung,Wonjun Hwang |
発行日 | 2023-08-08 08:51:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google