Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to Parcel Logistics

要約

コンピュータ ビジョンにおける最先端のアプローチは、十分に大きなトレーニング データセットに大きく依存しています。
実際のアプリケーションでは、通常、このようなデータセットを取得するのは面倒な作業です。
このホワイト ペーパーでは、インスタンス セグメンテーション用の合成データセットを 4 つのステップで生成するための完全に自動化されたパイプラインを紹介します。
既存の作業とは対照的に、パイプラインはデータ取得から最終的なデータセットまでのすべてのステップをカバーしています。
最初に、一般的な画像検索エンジンから関心のあるオブジェクトの画像をスクレイピングします。テキストベースのクエリのみに依存しているため、結果のデータはさまざまな画像で構成されています。
したがって、2 番目のステップとして画像の選択が必要です。
画像のスクレイピングと選択のこのアプローチにより、この目的のために公開または作成する必要がある現実世界のドメイン固有のデータセットの必要性が緩和されます。
オブジェクトに依存しない背景除去モデルを採用し、画像選択の 3 つの異なる方法を比較します。オブジェクトに依存しない前処理、手動の画像選択、および CNN ベースの画像選択です。
3 番目のステップでは、任意の背景に関心のあるオブジェクトとディストラクターのランダムな配置を生成します。
最後に、4 つの異なるブレンド方法を使用してオブジェクトを貼り付けることで、画像の合成が行われます。
パーセル セグメンテーションを考慮して、データセット生成アプローチのケース スタディを提示します。
評価のために、自動的に注釈が付けられた小包の写真のデータセットを作成しました。
(1) データセット生成パイプラインにより、実際のテスト画像 (マスク AP 86.2) への転送が成功すること、(2) 人間の直感とは対照的に、非常に正確な画像選択プロセスは重要ではなく、より広いカテゴリ定義が役立つことがわかります。
ドメインギャップを埋めるために、(3) ブレンディング方法の使用は、単純なコピーアンドペーストと比較して有益です。
スクレイピング、画像合成、トレーニングの完全なコードを https://a-nau.github.io/parcel2d で公開しました。

要約(オリジナル)

State-of-the-art approaches in computer vision heavily rely on sufficiently large training datasets. For real-world applications, obtaining such a dataset is usually a tedious task. In this paper, we present a fully automated pipeline to generate a synthetic dataset for instance segmentation in four steps. In contrast to existing work, our pipeline covers every step from data acquisition to the final dataset. We first scrape images for the objects of interest from popular image search engines and since we rely only on text-based queries the resulting data comprises a wide variety of images. Hence, image selection is necessary as a second step. This approach of image scraping and selection relaxes the need for a real-world domain-specific dataset that must be either publicly available or created for this purpose. We employ an object-agnostic background removal model and compare three different methods for image selection: Object-agnostic pre-processing, manual image selection and CNN-based image selection. In the third step, we generate random arrangements of the object of interest and distractors on arbitrary backgrounds. Finally, the composition of the images is done by pasting the objects using four different blending methods. We present a case study for our dataset generation approach by considering parcel segmentation. For the evaluation we created a dataset of parcel photos that were annotated automatically. We find that (1) our dataset generation pipeline allows a successful transfer to real test images (Mask AP 86.2), (2) a very accurate image selection process – in contrast to human intuition – is not crucial and a broader category definition can help to bridge the domain gap, (3) the usage of blending methods is beneficial compared to simple copy-and-paste. We made our full code for scraping, image composition and training publicly available at https://a-nau.github.io/parcel2d.

arxiv情報

著者 Alexander Naumann,Felix Hertlein,Benchun Zhou,Laura Dörr,Kai Furmans
発行日 2022-10-18 12:49:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク