テキストから画像への合成フレームワーク(DALL-E、Stable Diffusionなど)を使用して、正確なラベルを備えたトレーニングデータを大規模に自動的に生成する新しいパラダイムを提案します。
提案されたアプローチは、トレーニング データの生成を前景オブジェクト マスクの生成と背景 (コンテキスト) 画像の生成に分離します。
前景オブジェクト マスクの生成では、オブジェクト クラス名を含む単純なテキスト テンプレートを DALL-E への入力として使用して、さまざまな前景画像のセットを生成します。
次に、フォアグラウンド-バックグラウンド セグメンテーション アルゴリズムを使用して、フォアグラウンド オブジェクト マスクを生成します。
これらの言語記述は、DALL-E フレームワークを使用してさまざまなコンテキスト イメージのセットを生成するために使用されます。
次に、これらを最初のステップで生成されたオブジェクト マスクと合成して、分類子の拡張トレーニング セットを提供します。
Pascal VOC および COCO オブジェクト検出タスクを含む 4 つのオブジェクト検出データセットに対するアプローチの利点を示します。
さらに、アウト オブ ディストリビューションおよびゼロ ショット データ生成シナリオにおけるデータ生成アプローチの構成上の性質も強調します。
We propose a new paradigm to automatically generate training data with accurate labels at scale using the text-toimage synthesis frameworks (e.g., DALL-E, Stable Diffusion, etc.). The proposed approach decouples training data generation into foreground object mask generation and background (context) image generation. For foreground object mask generation, we use a simple textual template with object class name as input to DALL-E to generate a diverse set of foreground images. A foreground-background segmentation algorithm is then used to generate foreground object masks. Next, in order to generate context images, first a language description of the context is generated by applying an image captioning method on a small set of images representing the context. These language descriptions are then used to generate diverse sets of context images using the DALL-E framework. These are then composited with object masks generated in the first step to provide an augmented training set for a classifier. We demonstrate the advantages of our approach on four object detection datasets including on Pascal VOC and COCO object detection tasks. Furthermore, we also highlight the compositional nature of our data generation approach on out-of-distribution and zero-shot data generation scenarios.
著者 | Yunhao Ge,Jiashu Xu,Brian Nlong Zhao,Neel Joshi,Laurent Itti,Vibhav Vineet |
発行日 | 2022-12-20 17:31:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google