PromptDet: Towards Open-vocabulary Detection using Uncurated Images

要約

この作業の目標は、ゼロの手動注釈を使用して、オブジェクト検出器を新規/未表示のカテゴリに拡張するためのスケーラブルなパイプラインを確立することです。
それを達成するために、私たちは次の4つの貢献をします:(i)一般化を追求して、クラスにとらわれないオブジェクトの提案が事前に訓練された視覚からのテキストエンコーダーで分類される2段階のオープンボキャブラリーオブジェクト検出器を提案します-
言語モデル;
(ii)(RPNボックス提案の)視覚的潜在空間を事前トレーニング済みテキストエンコーダーの視覚的潜在空間と組み合わせるために、テキスト埋め込み空間を地域の視覚オブジェクト機能に合わせるための地域的プロンプト学習のアイデアを提案します。
(iii)より広いスペクトルのオブジェクトを検出するための学習手順をスケールアップするために、新しい自己トレーニングフレームワークを介して利用可能なオンラインリソースを活用します。これにより、ノイズの多いキュレーションされていないWeb画像の大規模なコーパスで提案された検出器をトレーニングできます。
最後に、(iv)PromptDetと呼ばれる提案された検出器を評価するために、挑戦的なLVISおよびMS-COCOデータセットで広範な実験を行います。
PromptDetは、追加のトレーニング画像が少なく、手動の注釈がまったくない既存のアプローチよりも優れたパフォーマンスを示します。
コード付きのプロジェクトページ:https://fcjian.github.io/promptdet。

要約(オリジナル)

The goal of this work is to establish a scalable pipeline for expanding an object detector towards novel/unseen categories, using zero manual annotations. To achieve that, we make the following four contributions: (i) in pursuit of generalisation, we propose a two-stage open-vocabulary object detector, where the class-agnostic object proposals are classified with a text encoder from pre-trained visual-language model; (ii) To pair the visual latent space (of RPN box proposals) with that of the pre-trained text encoder, we propose the idea of regional prompt learning to align the textual embedding space with regional visual object features; (iii) To scale up the learning procedure towards detecting a wider spectrum of objects, we exploit the available online resource via a novel self-training framework, which allows to train the proposed detector on a large corpus of noisy uncurated web images. Lastly, (iv) to evaluate our proposed detector, termed as PromptDet, we conduct extensive experiments on the challenging LVIS and MS-COCO dataset. PromptDet shows superior performance over existing approaches with fewer additional training images and zero manual annotations whatsoever. Project page with code: https://fcjian.github.io/promptdet.

arxiv情報

著者 Chengjian Feng,Yujie Zhong,Zequn Jie,Xiangxiang Chu,Haibing Ren,Xiaolin Wei,Weidi Xie,Lin Ma
発行日 2022-07-18 17:44:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク