Automatically Prepare Training Data for YOLO Using Robotic In-Hand Observation and Synthesis

要約

近年、物体検出においてディープラーニングの手法が目覚ましい性能を発揮している。しかし、このような手法では、高い認識精度を得るために多くの学習データが必要であり、画像のラベリングなどかなりの手作業を必要とし、時間がかかるという問題があった。本論文では、ロボットを用いて学習データを自動的に用意する。ロボット動作の効率の悪さと消費電力の大きさを考慮し、ロボットが収集した限られたデータセットを拡大するために、ロボットによる手元観察とデータ合成を組み合わせることを提案した。まず、深度センサを搭載したロボットを用いて、ロボットの手に持った物体の画像を収集し、物体画像の分割を行いました。次に、セグメント化された物体をコピーペースト法でラック背景と合成した。収集した画像と合成画像を組み合わせて、深層検出ニューラルネットワークを学習させる。提案手法と他のいくつかの手法で収集した画像で学習させたYOLOv5x検出器を比較する実験を行った。その結果、観測画像と合成画像を組み合わせることで、手動によるデータ作成と同等の性能を発揮することが分かりました。また、検出器を学習させるためのデータ構成やパラメータ設定を最適化するための良い指針を与えてくれました。また、提案した方法は、1回の処理で合成データを作成することができ、低コストで実施できる方法である。データセットと学習済みモデルは、以下のGitHubリポジトリから入手できます: github.com/wrslab/tubedet

要約(オリジナル)

Deep learning methods have recently exhibited impressive performance in object detection. However, such methods needed much training data to achieve high recognition accuracy, which was time-consuming and required considerable manual work like labeling images. In this paper, we automatically prepare training data using robots. Considering the low efficiency and high energy consumption in robot motion, we proposed combining robotic in-hand observation and data synthesis to enlarge the limited data set collected by the robot. We first used a robot with a depth sensor to collect images of objects held in the robot’s hands and segment the object pictures. Then, we used a copy-paste method to synthesize the segmented objects with rack backgrounds. The collected and synthetic images are combined to train a deep detection neural network. We conducted experiments to compare YOLOv5x detectors trained with images collected using the proposed method and several other methods. The results showed that combined observation and synthetic images led to comparable performance to manual data preparation. They provided a good guide on optimizing data configurations and parameter settings for training detectors. The proposed method required only a single process and was a low-cost way to produce the combined data. Interested readers may find the data sets and trained models from the following GitHub repository: github.com/wrslab/tubedet

arxiv情報

著者 Hao Chen,Weiwei Wan,Masaki Matsushita,Takeyuki Kotaka,Kensuke Harada
発行日 2023-01-04 04:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク