Supervised Virtual-to-Real Domain Adaptation for Object Detection Task using YOLO


ディープ ニューラル ネットワークは、現実世界の多くのタスクで優れた用途を示しています。
深層学習タスクの 1 つに物体検出があります。
十分に注釈が付けられたデータセットは、ディープ ニューラル ネットワークの精度に影響します。
ディープ ニューラル ネットワークによって学習されるデータが増えると、モデルがより正確になります。
研究者は、特定のユース ケースとその注釈を含む多くの画像を生成できます。
5000 および 10000 の仮想データと 220 の実データを使用して、VW-PPE データセットを使用します。
モデル アーキテクチャには、CSPDarknet53 をバックボーンとし、PAN をネックとする YOLOv4 を使用しました。
バックボーンの重みのみを微調整したドメイン適応技術は、74.457% の平均精度を達成しました。


Deep neural network shows excellent use in a lot of real-world tasks. One of the deep learning tasks is object detection. Well-annotated datasets will affect deep neural network accuracy. More data learned by deep neural networks will make the model more accurate. However, a well-annotated dataset is hard to find, especially in a specific domain. To overcome this, computer-generated data or virtual datasets are used. Researchers could generate many images with specific use cases also with its annotation. Research studies showed that virtual datasets could be used for object detection tasks. Nevertheless, with the usage of the virtual dataset, the model must adapt to real datasets, or the model must have domain adaptability features. We explored the domain adaptation inside the object detection model using a virtual dataset to overcome a few well-annotated datasets. We use VW-PPE dataset, using 5000 and 10000 virtual data and 220 real data. For model architecture, we used YOLOv4 using CSPDarknet53 as the backbone and PAN as the neck. The domain adaptation technique with fine-tuning only on backbone weight achieved a mean average precision of 74.457%.


著者 Akbar Satya Nugraha,Yudistira Novanto,Bayu Rahayudi
発行日 2023-02-27 15:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク