An Effective Two-stage Training Paradigm Detector for Small Dataset

要約

限られた量のラベル付きデータから事前トレーニング モデルを学習することは、常に困難な作業とみなされてきました。
このレポートでは、効果的で堅牢なソリューションである 2 段階トレーニング パラダイム YOLOv8 検出器 (TP-YOLOv8) が、VIPriors Challenge 2023 の物体検出トラック用に設計されています。 まず、YOLOv8 のバックボーンは、以下を使用してエンコーダーとして事前トレーニングされます。
マスクされた画像モデリング技術。
次に、検出器は精巧な拡張機能を使用して微調整されます。
テスト段階では、テスト時拡張 (TTA) を使用して各モデルを強化し、加重ボックス フュージョン (WBF) を実装してパフォーマンスをさらに向上させます。
適切に設計された構造により、当社のアプローチは DelftBikes テスト セットで 0.50 ~ 0.95 の平均精度 30.4% を達成し、リーダーボードで 4 位にランクされました。

要約(オリジナル)

Learning from the limited amount of labeled data to the pre-train model has always been viewed as a challenging task. In this report, an effective and robust solution, the two-stage training paradigm YOLOv8 detector (TP-YOLOv8), is designed for the object detection track in VIPriors Challenge 2023. First, the backbone of YOLOv8 is pre-trained as the encoder using the masked image modeling technique. Then the detector is fine-tuned with elaborate augmentations. During the test stage, test-time augmentation (TTA) is used to enhance each model, and weighted box fusion (WBF) is implemented to further boost the performance. With the well-designed structure, our approach has achieved 30.4% average precision from 0.50 to 0.95 on the DelftBikes test set, ranking 4th on the leaderboard.

arxiv情報

著者 Zheng Wang,Dong Xie,Hanzhi Wang,Jiang Tian
発行日 2023-09-11 17:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク