InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

要約

この論文では、拡散モデルから生成された合成データセットでトレーニングすることにより、カテゴリの拡張や検出パフォーマンスの向上など、物体検出器の能力を強化するための新しいパラダイムを紹介します。
具体的には、インスタンスレベルのグラウンディングヘッドを事前トレーニングされた生成拡散モデルに統合し、生成された画像内の任意のインスタンスの位置を特定する機能を強化します。
グラウンディング ヘッドは、既製の物体検出器からの監視と、対象外の (新しい) カテゴリに関する新しい自己学習スキームを使用して、カテゴリ名のテキスト埋め込みを拡散モデルの地域の視覚的特徴と一致させるようにトレーニングされます。
検出器。
InstaGen と呼ばれる拡散モデルのこの拡張バージョンは、物体検出用のデータ シンセサイザーとして機能します。
私たちは徹底的な実験を行って、InstaGen の合成データセットでトレーニング中に物体検出機能を強化できることを示し、オープンな語彙 (+4.5 AP) とデータの疎な (+4.5 AP) において既存の最先端の手法より優れたパフォーマンスを実証しました
1.2 ~ 5.2 AP) シナリオ。

要約(オリジナル)

In this paper, we introduce a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising arbitrary instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. This enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer for object detection. We conduct thorough experiments to show that, object detector can be enhanced while training on the synthetic dataset from InstaGen, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios.

arxiv情報

著者 Chengjian Feng,Yujie Zhong,Zequn Jie,Weidi Xie,Lin Ma
発行日 2024-02-08 18:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク