PKD: General Distillation Framework for Object Detectors via Pearson Correlation Coefficient

要約

知識蒸留 (KD) は、オブジェクト検出でコンパクト モデルをトレーニングするために広く使用されている手法です。
ただし、異種検出器間で蒸留する方法に関する研究はまだ不足しています。
この論文では、検出ヘッドとラベルの割り当ては異なりますが、異種教師検出器からのより優れた FPN 機能が学生に役立つことが経験的にわかります。
ただし、フィーチャ マップを蒸留検出器に直接配置することには、2 つの問題があります。
まず、教師と生徒の特徴の大きさの違いにより、生徒に過度に厳しい制約が課せられる可能性があります。
第二に、教師モデルからの大きな特徴の大きさを持つ FPN ステージとチャネルは、蒸留損失の勾配を支配する可能性があり、KD の他の特徴の影響を圧倒し、多くのノイズを導入します。
上記の問題に対処するために、ピアソン相関係数を使用して特徴を模倣し、教師からの関係情報に焦点を当て、特徴の大きさの制約を緩和することを提案します。
私たちの方法は一貫して既存の検出KD方法よりも優れており、同種および異種の学生と教師のペアの両方で機能します。
さらに、収束が速くなります。
強力な MaskRCNN-Swin 検出器を教師として使用すると、ResNet-50 ベースの RetinaNet と FCOS は COCO2017 で 41.5% と 43.9% の mAP を達成し、ベースラインよりもそれぞれ 4.1\% と 4.8\% 高くなります。

要約(オリジナル)

Knowledge distillation(KD) is a widely-used technique to train compact models in object detection. However, there is still a lack of study on how to distill between heterogeneous detectors. In this paper, we empirically find that better FPN features from a heterogeneous teacher detector can help the student although their detection heads and label assignments are different. However, directly aligning the feature maps to distill detectors suffers from two problems. First, the difference in feature magnitude between the teacher and the student could enforce overly strict constraints on the student. Second, the FPN stages and channels with large feature magnitude from the teacher model could dominate the gradient of distillation loss, which will overwhelm the effects of other features in KD and introduce much noise. To address the above issues, we propose to imitate features with Pearson Correlation Coefficient to focus on the relational information from the teacher and relax constraints on the magnitude of the features. Our method consistently outperforms the existing detection KD methods and works for both homogeneous and heterogeneous student-teacher pairs. Furthermore, it converges faster. With a powerful MaskRCNN-Swin detector as the teacher, ResNet-50 based RetinaNet and FCOS achieve 41.5% and 43.9% mAP on COCO2017, which are 4.1\% and 4.8\% higher than the baseline, respectively.

arxiv情報

著者 Weihan Cao,Yifan Zhang,Jianfei Gao,Anda Cheng,Ke Cheng,Jian Cheng
発行日 2022-11-30 15:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク