Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised Object Detection

要約

この研究では、半教師ありオブジェクト検出 (SSOD) における疑似ターゲットの矛盾について深く掘り下げます。
私たちの主な観察結果は、振動する疑似ターゲットが正確な検出器のトレーニングを損なうということです。
学生のトレーニングにノイズを注入し、深刻なオーバーフィッティングの問題を引き起こします。
したがって、矛盾を減らすために ConsistentTeacher と呼ばれる体系的な解決策を提案します。
最初に、適応型アンカー割り当て ~ (ASA) は、静的な IoU ベースの戦略を置き換えます。これにより、学生ネットワークはノイズの多い疑似境界ボックスに耐性を持つことができます。
次に、3D機能アライメントモジュール〜(FAM-3D)を設計することにより、サブタスク予測を調整します。
これにより、各分類機能は、任意のスケールと場所で回帰タスクの最適な機能ベクトルを適応的にクエリできます。
最後に、ガウス混合モデル (GMM) は疑似 bbox のスコアしきい値を動的に修正します。これにより、初期段階でグラウンド トゥルースの数が安定し、トレーニング中の信頼できない監視信号が修正されます。
ConsistentTeacher は、幅広い SSOD 評価で強力な結果を提供します。
注釈付き MS-COCO データの 10% のみを指定すると、ResNet-50 バックボーンで 40.0 mAP を達成します。これは、疑似ラベルを使用した以前のベースラインを約 3 mAP 上回っています。
追加のラベルなしデータを使用して完全に注釈が付けられた MS-COCO でトレーニングすると、パフォーマンスはさらに 47.7 mAP に向上します。
私たちのコードは、\url{https://github.com/Adamdad/ConsistentTeacher} で入手できます。

要約(オリジナル)

In this study, we dive deep into the inconsistency of pseudo targets in semi-supervised object detection (SSOD). Our core observation is that the oscillating pseudo-targets undermine the training of an accurate detector. It injects noise into the student’s training, leading to severe overfitting problems. Therefore, we propose a systematic solution, termed ConsistentTeacher, to reduce the inconsistency. First, adaptive anchor assignment~(ASA) substitutes the static IoU-based strategy, which enables the student network to be resistant to noisy pseudo-bounding boxes. Then we calibrate the subtask predictions by designing a 3D feature alignment module~(FAM-3D). It allows each classification feature to adaptively query the optimal feature vector for the regression task at arbitrary scales and locations. Lastly, a Gaussian Mixture Model (GMM) dynamically revises the score threshold of pseudo-bboxes, which stabilizes the number of ground truths at an early stage and remedies the unreliable supervision signal during training. ConsistentTeacher provides strong results on a large range of SSOD evaluations. It achieves 40.0 mAP with ResNet-50 backbone given only 10% of annotated MS-COCO data, which surpasses previous baselines using pseudo labels by around 3 mAP. When trained on fully annotated MS-COCO with additional unlabeled data, the performance further increases to 47.7 mAP. Our code is available at \url{https://github.com/Adamdad/ConsistentTeacher}.

arxiv情報

著者 Xinjiang Wang,Xingyi Yang,Shilong Zhang,Yijiang Li,Litong Feng,Shijie Fang,Chengqi Lyu,Kai Chen,Wayne Zhang
発行日 2023-03-28 14:15:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク