Fast Training Data Acquisition for Object Detection and Segmentation using Black Screen Luminance Keying

要約

ディープ ニューラル ネットワーク (DNN) が良好なパフォーマンスを得るには、注釈付きの大量のトレーニング データが必要です。
多くの場合、このデータは手動のラベル付け (エラーが発生しやすく、時間がかかる) またはレンダリング (形状と材料の情報が必要) を使用して生成されます。
どちらのアプローチも、多くの小規模アプリケーションに適用することが困難または不経済になります。
必要なトレーニング データを取得するための迅速かつ簡単なアプローチにより、最も小規模なアプリケーションにもディープ ラーニングを導入できるようになります。
クロマキーイングは、色 (通常は青または緑) を別の背景に置き換えるプロセスです。
クロマキーイングの代わりに、高速かつ簡単なトレーニング画像取得のためにルミナンスキーイングを提案します。
高い光吸収率 (99.99\%) を持つ黒いスクリーンを導入して、ターゲット オブジェクトの約 1 分間のビデオを録画し、色のにじみや背景色とオブジェクトの色の色の重複など、クロマ キーイングの典型的な問題を回避します。
次に、単純な明るさのしきい値を使用してオブジェクトを自動的にマスクし、手動での注釈の必要性を軽減します。
最後に、オブジェクトをランダムな背景に自動的に配置し、2D オブジェクト検出器をトレーニングします。
私たちは、広く使用されている YCB-V オブジェクト セットのパフォーマンスを広範に評価し、レンダリングなどの他の従来技術と比較して、3D メッシュ、マテリアル、またはターゲット オブジェクトのその他の情報を必要とせず、必要な時間のほんの一部で有利に比較します。
他のアプローチについては。
私たちの研究は、非常に正確なトレーニング データの取得を実証し、数分以内に最先端のネットワークのトレーニングを開始できることを示しています。

要約(オリジナル)

Deep Neural Networks (DNNs) require large amounts of annotated training data for a good performance. Often this data is generated using manual labeling (error-prone and time-consuming) or rendering (requiring geometry and material information). Both approaches make it difficult or uneconomic to apply them to many small-scale applications. A fast and straightforward approach of acquiring the necessary training data would allow the adoption of deep learning to even the smallest of applications. Chroma keying is the process of replacing a color (usually blue or green) with another background. Instead of chroma keying, we propose luminance keying for fast and straightforward training image acquisition. We deploy a black screen with high light absorption (99.99\%) to record roughly 1-minute long videos of our target objects, circumventing typical problems of chroma keying, such as color bleeding or color overlap between background color and object color. Next we automatically mask our objects using simple brightness thresholding, saving the need for manual annotation. Finally, we automatically place the objects on random backgrounds and train a 2D object detector. We do extensive evaluation of the performance on the widely-used YCB-V object set and compare favourably to other conventional techniques such as rendering, without needing 3D meshes, materials or any other information of our target objects and in a fraction of the time needed for other approaches. Our work demonstrates highly accurate training data acquisition allowing to start training state-of-the-art networks within minutes.

arxiv情報

著者 Thomas Pöllabauer,Volker Knauthe,André Boller,Arjan Kuijper,Dieter Fellner
発行日 2024-05-13 11:28:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク