D$^3$ETR: Decoder Distillation for Detection Transformer

要約

CNN ベースの検出器でのさまざまな知識蒸留 (KD) メソッドは、小さな学生の改善に有効であることを示していますが、DETR ベースの検出器のベースラインとレシピはまだ構築されていません。
この論文では、DETRベースの検出器のトランスデコーダーに焦点を当て、それらのKD法を探ります。
トランスフォーマーデコーダーの出力はランダムな順序であり、教師と生徒の予測の間に直接的な対応はなく、知識の抽出に問題が生じます。
この目的のために、DETR ベースの教師と生徒のデコーダ出力を揃える MixMatcher を提案します。これは、教師と生徒の 2 つのマッチング戦略、つまり、適応マッチングと固定マッチングを組み合わせたものです。
具体的には、適応マッチングは二部マッチングを適用して、各デコーダ層で教師と生徒の出力を適応的に照合しますが、固定マッチングは教師と生徒の出力間の対応を同じオブジェクト クエリで修正し、教師の固定オブジェクト クエリで修正します。
補助グループとして学生のデコーダーに供給されます。
MixMatcher に基づいて、\textbf{D}tection \textbf{TR} ansformer (D$^3$ETR) の \textbf{D}ecoder \textbf{D}istillation を構築します。
先生から生徒へ。
D$^3$ETR は、さまざまなバックボーンを持つさまざまな DETR ベースの検出器で優れたパフォーマンスを示します。
たとえば、D$^3$ETR は条件付き DETR-R101-C5 を教師として $12/50$ エポック トレーニング設定で $\textbf{7.8}/\textbf{2.4}$ mAP だけ条件付き DETR-R50-C5 を改善します。

要約(オリジナル)

While various knowledge distillation (KD) methods in CNN-based detectors show their effectiveness in improving small students, the baselines and recipes for DETR-based detectors are yet to be built. In this paper, we focus on the transformer decoder of DETR-based detectors and explore KD methods for them. The outputs of the transformer decoder lie in random order, which gives no direct correspondence between the predictions of the teacher and the student, thus posing a challenge for knowledge distillation. To this end, we propose MixMatcher to align the decoder outputs of DETR-based teachers and students, which mixes two teacher-student matching strategies, i.e., Adaptive Matching and Fixed Matching. Specifically, Adaptive Matching applies bipartite matching to adaptively match the outputs of the teacher and the student in each decoder layer, while Fixed Matching fixes the correspondence between the outputs of the teacher and the student with the same object queries, with the teacher’s fixed object queries fed to the decoder of the student as an auxiliary group. Based on MixMatcher, we build \textbf{D}ecoder \textbf{D}istillation for \textbf{DE}tection \textbf{TR}ansformer (D$^3$ETR), which distills knowledge in decoder predictions and attention maps from the teachers to students. D$^3$ETR shows superior performance on various DETR-based detectors with different backbones. For example, D$^3$ETR improves Conditional DETR-R50-C5 by $\textbf{7.8}/\textbf{2.4}$ mAP under $12/50$ epochs training settings with Conditional DETR-R101-C5 as the teacher.

arxiv情報

著者 Xiaokang Chen,Jiahui Chen,Yan Liu,Gang Zeng
発行日 2022-11-17 18:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク