Gen2Det: Generate to Detect

要約

最近の普及モデルでは、生成時の制御が向上するだけでなく、合成画像の品質も向上していることが示されています。
私たちは、最先端の接地された画像生成手法を活用して、物体検出用の合成トレーニング データを無料で作成するためのシンプルなモジュール式パイプラインである Gen2Det を動機付け、提示します。
個々のオブジェクト インスタンスを生成し、前景を識別してから他の画像に貼り付ける必要がある既存の作業とは異なり、シーン中心の画像を直接生成することを簡略化します。
合成データに加えて、Gen2Det は、画像レベルのフィルタリング、インスタンスレベルのフィルタリング、生成の不完全性を考慮したより良いトレーニング レシピなど、生成されたデータを最大限に活用するための一連の手法も提案します。
Gen2Det を使用すると、検出方法に依存せず、さまざまな設定の下でオブジェクト検出とセグメンテーションのタスクが健全に改善されることがわかります。
LVIS のロングテール検出設定では、Gen2Det はまれなカテゴリのパフォーマンスを大幅に向上させると同時に、他のカテゴリのパフォーマンスも大幅に向上させます。
マスク R-CNN を使用した LVIS 上の実際のデータでのトレーニングのみに比べて、2.13 ボックス AP と 1.84 マスク AP の改善が見られます。
COCO の低データ領域設定では、Gen2Det はボックス AP とマスク AP の両方を 2.27 ポイントと 1.85 ポイント向上させました。
最も一般的な検出設定でも、Gen2Det は依然として堅牢なパフォーマンス向上を示しています。
COCO のボックスとマスクの AP が 0.45 ポイントと 0.32 ポイント向上します。

要約(オリジナル)

Recently diffusion models have shown improvement in synthetic image quality as well as better control in generation. We motivate and present Gen2Det, a simple modular pipeline to create synthetic training data for object detection for free by leveraging state-of-the-art grounded image generation methods. Unlike existing works which generate individual object instances, require identifying foreground followed by pasting on other images, we simplify to directly generating scene-centric images. In addition to the synthetic data, Gen2Det also proposes a suite of techniques to best utilize the generated data, including image-level filtering, instance-level filtering, and better training recipe to account for imperfections in the generation. Using Gen2Det, we show healthy improvements on object detection and segmentation tasks under various settings and agnostic to detection methods. In the long-tailed detection setting on LVIS, Gen2Det improves the performance on rare categories by a large margin while also significantly improving the performance on other categories, e.g. we see an improvement of 2.13 Box AP and 1.84 Mask AP over just training on real data on LVIS with Mask R-CNN. In the low-data regime setting on COCO, Gen2Det consistently improves both Box and Mask AP by 2.27 and 1.85 points. In the most general detection setting, Gen2Det still demonstrates robust performance gains, e.g. it improves the Box and Mask AP on COCO by 0.45 and 0.32 points.

arxiv情報

著者 Saksham Suri,Fanyi Xiao,Animesh Sinha,Sean Chang Culatana,Raghuraman Krishnamoorthi,Chenchen Zhu,Abhinav Shrivastava
発行日 2023-12-07 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク