Grouped Knowledge Distillation for Deep Face Recognition

要約

タイトル:深層顔認識のためのグループ化された知識蒸留

要約:
– 特徴ベースの蒸留方法と比較して、ログの蒸留は、教師と生徒ネットワーク間の一貫した特徴寸法の要件を緩和することができますが、顔認識においては性能が劣ると見なされています。
– 主な課題は、軽量な学生ネットワークがターゲットのログを適合させることが困難であるため、顔認識の多数のアイデンティティに負ける低いモデル容量に帰することができます。
– そのため、私たちは、主たる知識と他の知識とを分離するためにターゲットログを調査し、学生ネットワークにとってより達成可能な蒸留を実現する方法を模索しています。
– 次に、予測の累積確率によって2つのグループ、つまりプライマリグループとセカンダリグループにログを分割し、それぞれプライマリ-KD、セカンダリ-KD、バイナリ-KDの3つの部分に再編成します。プライマリ-KDは教師から主要な知識を蒸留し、セカンダリ-KDはマイナーな知識を洗練することを目的としていますが、蒸留の困難さを増加させます。バイナリ-KDは教師と生徒間の知識分布の整合性を確保します。
– 実験的に、プライマリ-KDとバイナリ-KDがKDにとって欠かせないことがわかりましたが、セカンダリ-KDがボトルネックでKDを制限しています。そのため、私たちは、プライマリ-KDとバイナリ-KDを保持し、最終的なKD損失の計算でセカンダリ-KDを省略するグループ化された知識蒸留(GKD)を提案します。
– 思いを込めた実験結果は、提案されたGKDが最先端の方法に比べて優れていることを示しています。人気のある顔認識ベンチマークでの広範な実験結果に基づいて、その優位性を検証しました。

要約(オリジナル)

Compared with the feature-based distillation methods, logits distillation can liberalize the requirements of consistent feature dimension between teacher and student networks, while the performance is deemed inferior in face recognition. One major challenge is that the light-weight student network has difficulty fitting the target logits due to its low model capacity, which is attributed to the significant number of identities in face recognition. Therefore, we seek to probe the target logits to extract the primary knowledge related to face identity, and discard the others, to make the distillation more achievable for the student network. Specifically, there is a tail group with near-zero values in the prediction, containing minor knowledge for distillation. To provide a clear perspective of its impact, we first partition the logits into two groups, i.e., Primary Group and Secondary Group, according to the cumulative probability of the softened prediction. Then, we reorganize the Knowledge Distillation (KD) loss of grouped logits into three parts, i.e., Primary-KD, Secondary-KD, and Binary-KD. Primary-KD refers to distilling the primary knowledge from the teacher, Secondary-KD aims to refine minor knowledge but increases the difficulty of distillation, and Binary-KD ensures the consistency of knowledge distribution between teacher and student. We experimentally found that (1) Primary-KD and Binary-KD are indispensable for KD, and (2) Secondary-KD is the culprit restricting KD at the bottleneck. Therefore, we propose a Grouped Knowledge Distillation (GKD) that retains the Primary-KD and Binary-KD but omits Secondary-KD in the ultimate KD loss calculation. Extensive experimental results on popular face recognition benchmarks demonstrate the superiority of proposed GKD over state-of-the-art methods.

arxiv情報

著者 Weisong Zhao,Xiangyu Zhu,Kaiwen Guo,Xiao-Yu Zhang,Zhen Lei
発行日 2023-04-10 09:04:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク