Distilling Object Detectors With Global Knowledge

要約

知識の蒸留は、面倒な教師を模倣する軽量の学生モデルを学習します。
既存の方法は、知識を各インスタンスの特徴またはそれらの関係と見なします。これは、教師モデルのみからのインスタンスレベルの知識、つまりローカル知識です。
ただし、実証研究によると、オブジェクト検出タスクでは、特にぼやけている、遮られている、または小さいインスタンスでは、局所的な知識が非常にノイズが多いことが示されています。
したがって、より本質的なアプローチは、インスタンス w.r.t の表現を測定することです。
教師と生徒の検出器の 2 つの特徴空間における共通の基底ベクトルのグループ、つまりグローバルな知識。
次に、蒸留アルゴリズムを空間アライメントとして適用できます。
この目的のために、2 つの特徴空間でプロトタイプと呼ばれる共通の基底ベクトルを見つけるために、新しいプロトタイプ生成モジュール (PGM) が提案されています。
次に、堅牢な蒸留モジュール (RDM) を適用して、プロトタイプに基づいてグローバル知識を構築し、2 つの特徴空間での表現の不一致を測定することにより、ノイズの多いグローバル知識とローカル知識をフィルタリングします。
PASCAL および COCO データセットで Faster-RCNN および RetinaNet を使用した実験では、さまざまなバックボーンを備えたオブジェクト検出器を抽出するために、私たちの方法が最高のパフォーマンスを達成し、教師モデルのパフォーマンスを上回ることが示されています。
また、既存の方法をグローバルな知識と簡単に組み合わせて、さらに改善できることも示しています。
コードは https://github.com/hikvision-research/DAVAR-Lab-ML で入手できます。

要約(オリジナル)

Knowledge distillation learns a lightweight student model that mimics a cumbersome teacher. Existing methods regard the knowledge as the feature of each instance or their relations, which is the instance-level knowledge only from the teacher model, i.e., the local knowledge. However, the empirical studies show that the local knowledge is much noisy in object detection tasks, especially on the blurred, occluded, or small instances. Thus, a more intrinsic approach is to measure the representations of instances w.r.t. a group of common basis vectors in the two feature spaces of the teacher and the student detectors, i.e., global knowledge. Then, the distilling algorithm can be applied as space alignment. To this end, a novel prototype generation module (PGM) is proposed to find the common basis vectors, dubbed prototypes, in the two feature spaces. Then, a robust distilling module (RDM) is applied to construct the global knowledge based on the prototypes and filtrate noisy global and local knowledge by measuring the discrepancy of the representations in two feature spaces. Experiments with Faster-RCNN and RetinaNet on PASCAL and COCO datasets show that our method achieves the best performance for distilling object detectors with various backbones, which even surpasses the performance of the teacher model. We also show that the existing methods can be easily combined with global knowledge and obtain further improvement. Code is available: https://github.com/hikvision-research/DAVAR-Lab-ML.

arxiv情報

著者 Sanli Tang,Zhongyu Zhang,Zhanzhan Cheng,Jing Lu,Yunlu Xu,Yi Niu,Fan He
発行日 2022-10-17 12:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク