PKD: General Distillation Framework for Object Detectors via Pearson Correlation Coefficient

要約

知識抽出(KD)は物体検出においてコンパクトなモデルを学習するために広く利用されている手法である.しかし,異種検出器間でどのように知識抽出を行うかについては,まだ研究が不十分である.本論文では,異種教師検出器の検出ヘッドとラベル割り当てが異なるにもかかわらず,より良いFPN特徴が生徒を助けることを経験的に見出した.しかし、特徴マップを直接アライメントしてディスティル検出器を作成することは、2つの問題に悩まされる。第一に、教師と生徒の特徴の大きさの違いにより、生徒に過度に厳しい制約を強いる可能性がある。第二に、教師モデルからの特徴量の大きさが大きいFPNステージとチャンネルが蒸留損失の勾配を支配する可能性があり、KDにおける他の特徴の効果を圧倒し、多くのノイズを導入することになる。上記の問題を解決するために、我々は、教師からの関係情報に着目し、特徴量の大きさに対する制約を緩和するために、ピアソン相関係数を用いた特徴量の模倣を提案する。本手法は既存の検出KD法を一貫して上回り、同種の生徒-教師ペアと異種の生徒-教師ペアの両方に対して有効である。さらに、より高速に収束する。強力なMaskRCNN-Swin検出器を教師として、ResNet-50ベースのRetinaNetとFCOSはCOCO2017で41.5%と43.9%のmAPを達成し、それぞれベースラインより4.1%と4.8%高くなる。

要約(オリジナル)

Knowledge distillation(KD) is a widely-used technique to train compact models in object detection. However, there is still a lack of study on how to distill between heterogeneous detectors. In this paper, we empirically find that better FPN features from a heterogeneous teacher detector can help the student although their detection heads and label assignments are different. However, directly aligning the feature maps to distill detectors suffers from two problems. First, the difference in feature magnitude between the teacher and the student could enforce overly strict constraints on the student. Second, the FPN stages and channels with large feature magnitude from the teacher model could dominate the gradient of distillation loss, which will overwhelm the effects of other features in KD and introduce much noise. To address the above issues, we propose to imitate features with Pearson Correlation Coefficient to focus on the relational information from the teacher and relax constraints on the magnitude of the features. Our method consistently outperforms the existing detection KD methods and works for both homogeneous and heterogeneous student-teacher pairs. Furthermore, it converges faster. With a powerful MaskRCNN-Swin detector as the teacher, ResNet-50 based RetinaNet and FCOS achieve 41.5% and 43.9% mAP on COCO2017, which are 4.1\% and 4.8\% higher than the baseline, respectively.

arxiv情報

著者 Weihan Cao,Yifan Zhang,Jianfei Gao,Anda Cheng,Ke Cheng,Jian Cheng
発行日 2022-07-05 13:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク