要約
オープンボキャブラリーオブジェクト検出(OVD)は、ボキャブラリーサイズをスケールアップして、トレーニングボキャブラリーを超えた新しいカテゴリのオブジェクトを検出することを目的としています。
最近の研究は、事前に訓練された視覚言語モデルの豊富な知識に頼っています。
ただし、既存の方法は、提案レベルのビジョンと言語の調整には効果がありません。
一方、モデルは通常、基本カテゴリに対する信頼バイアスに悩まされ、新しいカテゴリではパフォーマンスが低下します。
課題を克服するために、提案マイニングと予測の均等化を備えた斬新で効果的なOVDフレームワークであるMEDetを紹介します。
まず、オンラインのプロポーザルマイニングを設計して、継承されたビジョンセマンティック知識を粗いものから細かいものに洗練し、プロポーザルレベルの検出指向の特徴の調整を可能にします。
次に、因果推論理論に基づいて、クラスごとのバックドア調整を導入し、新しいカテゴリの予測を強化して、全体的なOVDパフォーマンスを向上させます。
COCOおよびLVISベンチマークに関する広範な実験により、新しいカテゴリのオブジェクトを検出する際の競合するアプローチに対するMEDetの優位性が検証されます。たとえば、COCOで32.6%AP50、LVISで22.4%マスクmAPです。
要約(オリジナル)
Open-vocabulary object detection (OVD) aims to scale up vocabulary size to detect objects of novel categories beyond the training vocabulary. Recent work resorts to the rich knowledge in pre-trained vision-language models. However, existing methods are ineffective in proposal-level vision-language alignment. Meanwhile, the models usually suffer from confidence bias toward base categories and perform worse on novel ones. To overcome the challenges, we present MEDet, a novel and effective OVD framework with proposal mining and prediction equalization. First, we design an online proposal mining to refine the inherited vision-semantic knowledge from coarse to fine, allowing for proposal-level detection-oriented feature alignment. Second, based on causal inference theory, we introduce a class-wise backdoor adjustment to reinforce the predictions on novel categories to improve the overall OVD performance. Extensive experiments on COCO and LVIS benchmarks verify the superiority of MEDet over the competing approaches in detecting objects of novel categories, e.g., 32.6% AP50 on COCO and 22.4% mask mAP on LVIS.
arxiv情報
著者 | Peixian Chen,Kekai Sheng,Mengdan Zhang,Yunhang Shen,Ke Li,Chunhua Shen |
発行日 | 2022-06-24 08:58:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google