要約
Mean-Teacher(MT)スキームは、半教師ありオブジェクト検出(SSOD)で広く採用されています。
MTでは、教師の最終予測によって提供されるスパース疑似ラベル(たとえば、Non Maximum Suppression(NMS)の後処理後)が、手作りのラベル割り当てによる生徒の密な監視に採用されます。
ただし、疎から密へのパラダイムはSSODのパイプラインを複雑にし、同時に強力な直接の密な教師の監督を無視します。
この論文では、教師の密なガイダンスを直接活用して、生徒のトレーニング、つまり密から密へのパラダイムを監督しようとしています。
具体的には、逆NMSクラスタリング(INC)とランクマッチング(RM)を提案して、広く使用されている従来のスパース疑似ラベルを使用せずに、高密度の監視をインスタンス化します。
INCは、教師と同じように、生徒をNMSのクラスターに候補ボックスをグループ化するように導きます。これは、教師のNMS手順で明らかにされたグループ化情報を学習することによって実装されます。
INCを介して教師と同じグループ化スキームを取得した後、学生はランクマッチングを通じて、クラスター化された候補に対する教師のランク分布をさらに模倣します。
提案されたINCとRMを使用して、高密度教師ガイダンスを半教師ありオブジェクト検出(DTG-SSODと呼ばれる)に統合し、スパース疑似ラベルを正常に破棄し、ラベルのないデータでより有益な学習を可能にします。
COCOベンチマークでは、DTG-SSODは、さまざまなラベル付け比率で最先端のパフォーマンスを実現します。
たとえば、ラベル付け率が10%未満の場合、DTG-SSODは監視対象のベースラインを26.9から35.9 mAPに改善し、以前の最良の方法であるSoftTeacherを1.9ポイント上回ります。
要約(オリジナル)
The Mean-Teacher (MT) scheme is widely adopted in semi-supervised object detection (SSOD). In MT, the sparse pseudo labels, offered by the final predictions of the teacher (e.g., after Non Maximum Suppression (NMS) post-processing), are adopted for the dense supervision for the student via hand-crafted label assignment. However, the sparse-to-dense paradigm complicates the pipeline of SSOD, and simultaneously neglects the powerful direct, dense teacher supervision. In this paper, we attempt to directly leverage the dense guidance of teacher to supervise student training, i.e., the dense-to-dense paradigm. Specifically, we propose the Inverse NMS Clustering (INC) and Rank Matching (RM) to instantiate the dense supervision, without the widely used, conventional sparse pseudo labels. INC leads the student to group candidate boxes into clusters in NMS as the teacher does, which is implemented by learning grouping information revealed in NMS procedure of the teacher. After obtaining the same grouping scheme as the teacher via INC, the student further imitates the rank distribution of the teacher over clustered candidates through Rank Matching. With the proposed INC and RM, we integrate Dense Teacher Guidance into Semi-Supervised Object Detection (termed DTG-SSOD), successfully abandoning sparse pseudo labels and enabling more informative learning on unlabeled data. On COCO benchmark, our DTG-SSOD achieves state-of-the-art performance under various labelling ratios. For example, under 10% labelling ratio, DTG-SSOD improves the supervised baseline from 26.9 to 35.9 mAP, outperforming the previous best method Soft Teacher by 1.9 points.
arxiv情報
著者 | Gang Li,Xiang Li,Yujie Wang,Yichao Wu,Ding Liang,Shanshan Zhang |
発行日 | 2022-07-12 13:54:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google