Towards End-to-end Semi-supervised Learning for One-stage Object Detection

要約

半教師ありオブジェクト検出 (SSOD) は、コンピューター ビジョンの研究のホット スポットであり、高価なバウンディング ボックス アノテーションの要件を大幅に削減できます。
大きな成功にもかかわらず、既存の進歩は主に FasterRCNN のような 2 段階の検出ネットワークに焦点を当てており、1 段階の検出器に関する研究はしばしば無視されています。
このホワイト ペーパーでは、高度で一般的な 1 段階検出ネットワーク YOLOv5 の半教師あり学習に焦点を当てます。
Faster-RCNN と比較すると、YOLOv5 の実装ははるかに複雑であり、YOLOv5 で使用されるさまざまなトレーニング手法も SSOD の利点を減らす可能性があります。
この課題に加えて、1 段階の SSOD における 2 つの重要な問題も明らかにします。それぞれ、低品質の疑似ラベル付けとマルチタスク最適化の競合です。
これらの問題に対処するために、OneTeacher と呼ばれる新しい教師と生徒の学習レシピを提案します。OneTeacher には、マルチビュー疑似ラベル洗練 (MPR) と分離半教師付き最適化 (DSO) という 2 つの革新的な設計があります。
特に、MPR は拡張ビューの改良とグローバル ビューのフィルタリングによって疑似ラベルの品質を向上させ、DSO は構造の微調整とタスク固有の疑似ラベル付けによって共同最適化の競合を処理します。
さらに、SSOD の利点を最大化するために YOLOv5 の実装も慎重に修正します。これは、公正な比較のために既存の SSOD メソッドとも共有されます。
OneTeacher を検証するために、COCO と Pascal VOC で広範な実験を行います。
大規模な実験により、OneTeacher は比較された方法よりも優れたパフォーマンスを達成できるだけでなく、偏りのない教師よりも 15.0% の相対 AP ゲインを達成できるだけでなく、1 段階の SSOD の主要な問題をうまく処理できることが示されています。
ソース コードは https://github.com/luogen1996/OneTeacher で入手できます。

要約(オリジナル)

Semi-supervised object detection (SSOD) is a research hot spot in computer vision, which can greatly reduce the requirement for expensive bounding-box annotations. Despite great success, existing progress mainly focuses on two-stage detection networks like FasterRCNN, while the research on one-stage detectors is often ignored. In this paper, we focus on the semi-supervised learning for the advanced and popular one-stage detection network YOLOv5. Compared with Faster-RCNN, the implementation of YOLOv5 is much more complex, and the various training techniques used in YOLOv5 can also reduce the benefit of SSOD. In addition to this challenge, we also reveal two key issues in one-stage SSOD, which are low-quality pseudo-labeling and multi-task optimization conflict, respectively. To address these issues, we propose a novel teacher-student learning recipe called OneTeacher with two innovative designs, namely Multi-view Pseudo-label Refinement (MPR) and Decoupled Semi-supervised Optimization (DSO). In particular, MPR improves the quality of pseudo-labels via augmented-view refinement and global-view filtering, and DSO handles the joint optimization conflicts via structure tweaks and task-specific pseudo-labeling. In addition, we also carefully revise the implementation of YOLOv5 to maximize the benefits of SSOD, which is also shared with the existing SSOD methods for fair comparison. To validate OneTeacher, we conduct extensive experiments on COCO and Pascal VOC. The extensive experiments show that OneTeacher can not only achieve superior performance than the compared methods, e.g., 15.0% relative AP gains over Unbiased Teacher, but also well handle the key issues in one-stage SSOD. Our source code is available at: https://github.com/luogen1996/OneTeacher.

arxiv情報

著者 Gen Luo,Yiyi Zhou,Lei Jin,Xiaoshuai Sun,Rongrong Ji
発行日 2023-02-22 11:35:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク