Object Detector Differences when using Synthetic and Real Training Data

要約

性能の良い汎化ニューラルネットワークを訓練するためには、十分に大規模で多様なデータセットが必要である。個人情報保護法を遵守しながらデータを収集することはますます難しくなっており、このような大規模なデータセットに注釈を付けることは、リソースを必要とし、かつ時間のかかる作業である。これらの困難を克服するアプローチとして、合成データを使用することが挙げられる。合成データは本質的にスケーラブルであり、自動的に注釈を付けることができるからである。しかし、合成データでの学習がニューラルネットワークの層にどのような影響を与えるかはまだ不明である。本論文では、YOLOv3物体検出器を都市環境の実画像と合成画像で学習させる。中心カーネルアライメント(CKA)を用いた類似性分析を行い、合成データでの学習の効果をレイヤーごとに調べる。この解析は、異なるモデル間で異なるパターンと類似するパターンの両方を示しながら、検出器のアーキテクチャを捉える。この類似性分析により、合成データの訓練が各層にどのような影響を与えるかについての洞察を与え、複雑なニューラルネットワークの内部構造についてより理解を深めたいと考えています。その結果、実データで学習させた検出器と合成データで学習させた検出器の最大の類似点は初期層にあり、最大の違いは頭部分にあることがわかった。また、凍結したバックボーンと凍結していないバックボーンでは、性能にも類似性にも大きな違いは見られなかった。

要約(オリジナル)

To train well-performing generalizing neural networks, sufficiently large and diverse datasets are needed. Collecting data while adhering to privacy legislation becomes increasingly difficult and annotating these large datasets is both a resource-heavy and time-consuming task. An approach to overcome these difficulties is to use synthetic data since it is inherently scalable and can be automatically annotated. However, how training on synthetic data affects the layers of a neural network is still unclear. In this paper, we train the YOLOv3 object detector on real and synthetic images from city environments. We perform a similarity analysis using Centered Kernel Alignment (CKA) to explore the effects of training on synthetic data on a layer-wise basis. The analysis captures the architecture of the detector while showing both different and similar patterns between different models. With this similarity analysis we want to give insights on how training synthetic data affects each layer and to give a better understanding of the inner workings of complex neural networks. The results show that the largest similarity between a detector trained on real data and a detector trained on synthetic data was in the early layers, and the largest difference was in the head part. The results also show that no major difference in performance or similarity could be seen between frozen and unfrozen backbone.

arxiv情報

著者 Martin Georg Ljungqvist,Otto Nordander,Markus Skans,Arvid Mildner,Tony Liu,Pierre Nugues
発行日 2023-12-01 16:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, I.2.10 パーマリンク