Synthetic Data-based Detection of Zebras in Drone Imagery

要約

現在、一般的な物体検出器や人間検出器のトレーニングを可能にするデータセットが幅広く入手可能になっています。
これらは、ラベル付けされた現実世界の画像の形式で提供され、ラベルの欠落などのエラーが発生する可能性が高い、かなりの人的労力を必要とするか、または非常に制約されたシナリオのいずれかを必要とします。
VICON システム。
一方で、航空写真、野生のシマウマなどの動物、人の形などの入手が困難な情報など、珍しいシナリオはほとんど利用できません。
これを克服するために、最近ではリアルなレンダリング技術を使用した合成データ生成が注目を集めており、ターゲット追跡や人間の姿勢推定などの研究分野が進んでいます。
ただし、野生動物などの対象は通常、このようなデータセットではまだ十分に表現されていません。
この研究では、事前にトレーニングされた YOLO 検出器が航空視点から記録された実際の画像内のシマウマを識別できないことを最初に示します。
これを解決するために、合成データのみを使用して動物検出器をトレーニングするアプローチを紹介します。
データ生成のための最先端のフレームワークである GRADE を使用して、新しい合成ゼブラ データセットを生成することから始めます。
データセットには、各被験者の RGB、深度、骨格関節の位置、ポーズ、形状、インスタンスのセグメンテーションが含まれています。
これを使用して、YOLO 検出器を最初からトレーニングします。
i) インターネット上で利用可能な限られたデータセット、および ii) 私たちが収集し手動でラベル付けした新しいデータセットからの実世界データを使用したモデルの広範な評価を通じて、トレーニング中に合成データのみを使用してシマウマを検出できることを示しました。
コード、結果、トレーニングされたモデル、および生成されたデータとトレーニング データの両方は、https://eliabntt.github.io/grade-rr でオープンソースとして提供されます。

要約(オリジナル)

Nowadays, there is a wide availability of datasets that enable the training of common object detectors or human detectors. These come in the form of labelled real-world images and require either a significant amount of human effort, with a high probability of errors such as missing labels, or very constrained scenarios, e.g. VICON systems. On the other hand, uncommon scenarios, like aerial views, animals, like wild zebras, or difficult-to-obtain information, such as human shapes, are hardly available. To overcome this, synthetic data generation with realistic rendering technologies has recently gained traction and advanced research areas such as target tracking and human pose estimation. However, subjects such as wild animals are still usually not well represented in such datasets. In this work, we first show that a pre-trained YOLO detector can not identify zebras in real images recorded from aerial viewpoints. To solve this, we present an approach for training an animal detector using only synthetic data. We start by generating a novel synthetic zebra dataset using GRADE, a state-of-the-art framework for data generation. The dataset includes RGB, depth, skeletal joint locations, pose, shape and instance segmentations for each subject. We use this to train a YOLO detector from scratch. Through extensive evaluations of our model with real-world data from i) limited datasets available on the internet and ii) a new one collected and manually labelled by us, we show that we can detect zebras by using only synthetic data during training. The code, results, trained models, and both the generated and training data are provided as open-source at https://eliabntt.github.io/grade-rr.

arxiv情報

著者 Elia Bonetto,Aamir Ahmad
発行日 2023-07-04 10:43:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク