Cross Architecture Distillation for Face Recognition

要約

Transformers は顔認識タスクに最適な選択肢として浮上していますが、プラットフォームのアクセラレーションが不十分なため、モバイル デバイスでのアプリケーションの妨げとなっています。
対照的に、畳み込みニューラル ネットワーク (CNN) は、ハードウェア互換の高速化ライブラリを活用します。
そのため、Transformer ベースの教師モデルから CNN ベースの学生モデルに知識を転送するときに、クロスアーキテクチャ知識蒸留 (CAKD) として知られる蒸留効率を維持することが不可欠になりました。
その可能性にもかかわらず、顔認識における CAKD の展開は 2 つの課題に直面します。1) 教師と生徒がピクセルごとに異なる空間情報を共有し、特徴空間の位置合わせを妨げる、2) 教師のネットワークが教師の役割について訓練されていない
教師は蒸留特有の知識を扱う能力に欠けています。
これら 2 つの制約を克服するために、1) まず、統一受容野マッピング モジュール (URFM) を導入します。これは、教師と生徒のピクセル特徴を、統一された受容野を持つ局所特徴にマッピングし、それによって教師と生徒のピクセル単位の空間情報を同期します。
続いて、2) プロンプトを教師に統合する適応型プロンプティング教師ネットワーク (APT) を開発し、モデルの識別能力を維持しながら蒸留固有の知識を管理できるようにします。
一般的な顔のベンチマークと 2 つの大規模な検証セットに関する広範な実験により、私たちの手法の優位性が実証されました。

要約(オリジナル)

Transformers have emerged as the superior choice for face recognition tasks, but their insufficient platform acceleration hinders their application on mobile devices. In contrast, Convolutional Neural Networks (CNNs) capitalize on hardware-compatible acceleration libraries. Consequently, it has become indispensable to preserve the distillation efficacy when transferring knowledge from a Transformer-based teacher model to a CNN-based student model, known as Cross-Architecture Knowledge Distillation (CAKD). Despite its potential, the deployment of CAKD in face recognition encounters two challenges: 1) the teacher and student share disparate spatial information for each pixel, obstructing the alignment of feature space, and 2) the teacher network is not trained in the role of a teacher, lacking proficiency in handling distillation-specific knowledge. To surmount these two constraints, 1) we first introduce a Unified Receptive Fields Mapping module (URFM) that maps pixel features of the teacher and student into local features with unified receptive fields, thereby synchronizing the pixel-wise spatial information of teacher and student. Subsequently, 2) we develop an Adaptable Prompting Teacher network (APT) that integrates prompts into the teacher, enabling it to manage distillation-specific knowledge while preserving the model’s discriminative capacity. Extensive experiments on popular face benchmarks and two large-scale verification sets demonstrate the superiority of our method.

arxiv情報

著者 Weisong Zhao,Xiangyu Zhu,Zhixiang He,Xiao-Yu Zhang,Zhen Lei
発行日 2023-06-26 12:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク