要約
Few-shot Object Detection (FSOD)は、わずか数個の学習サンプルがあれば、新しいカテゴリに対応できる物体検出器を開発することを目的としている。しかし、少ない学習サンプルは、FSODモデルの性能を制限してしまう。最近のテキスト画像生成モデルは、高品質の画像を生成する有望な結果を示している。しかし、これらの合成画像がFSODタスクにどの程度適用できるかは、まだ十分に検討されていない。本研究では、最新のテキスト画像生成モデルから生成された合成画像が、FSODタスクにどのように役立つかを広範囲に研究する。(1)どのように合成データをFSODに利用するか?(2)大規模な合成データセットから代表的なサンプルを見つけるにはどうすればよいか?我々は、合成データを利用するためのコピーペーストに基づくパイプラインを設計する。具体的には、生成されたオリジナル画像に顕著性オブジェクト検出を適用し、顕著性マップに基づいて主要なオブジェクトを切り取るために最小包囲ボックスを使用する。その後、切り出したオブジェクトを、ベースデータセットから得られる画像にランダムに貼り付けます。また、テキスト画像生成器の入力テキストと、使用する合成画像の枚数の影響も調査する。代表的な合成訓練データセットを構築するために、サンプルベースとクラスタベースの方法によって、選択された画像の多様性を最大化する。しかし、FSODにおける新規カテゴリの誤検出率が高いという深刻な問題は、合成データを用いることで解決することはできない。我々は、ゼロショット認識モデルであるCLIPをFSODパイプラインに統合することを提案し、検出された物体と予測されたカテゴリのテキストとの類似度スコアに閾値を定義することにより、90%のFPをフィルタリングできる。PASCAL VOCとMS COCOを用いた広範な実験により、本手法の有効性が検証され、数ショットのベースラインと比較して、最大21.9%の性能向上が見られた。
要約(オリジナル)
Few-shot object detection (FSOD) aims to expand an object detector for novel categories given only a few instances for training. The few training samples restrict the performance of FSOD model. Recent text-to-image generation models have shown promising results in generating high-quality images. How applicable these synthetic images are for FSOD tasks remains under-explored. This work extensively studies how synthetic images generated from state-of-the-art text-to-image generators benefit FSOD tasks. We focus on two perspectives: (1) How to use synthetic data for FSOD? (2) How to find representative samples from the large-scale synthetic dataset? We design a copy-paste-based pipeline for using synthetic data. Specifically, saliency object detection is applied to the original generated image, and the minimum enclosing box is used for cropping the main object based on the saliency map. After that, the cropped object is randomly pasted on the image, which comes from the base dataset. We also study the influence of the input text of text-to-image generator and the number of synthetic images used. To construct a representative synthetic training dataset, we maximize the diversity of the selected images via a sample-based and cluster-based method. However, the severe problem of high false positives (FP) ratio of novel categories in FSOD can not be solved by using synthetic data. We propose integrating CLIP, a zero-shot recognition model, into the FSOD pipeline, which can filter 90% of FP by defining a threshold for the similarity score between the detected object and the text of the predicted category. Extensive experiments on PASCAL VOC and MS COCO validate the effectiveness of our method, in which performance gain is up to 21.9% compared to the few-shot baseline.
arxiv情報
著者 | Shaobo Lin,Kun Wang,Xingyu Zeng,Rui Zhao |
発行日 | 2023-05-12 05:45:29+00:00 |
arxivサイト | arxiv_id(pdf) |