要約
オープン語彙オブジェクト検出 (OVOD) は、トレーニング時には表示されなかった新しいクラスの視覚オブジェクトを位置特定して認識することを目的としています。
一方、実証研究によると、高度な検出器は通常、これらの新規インスタンスに低いスコアを割り当てますが、非最大抑制 (NMS) などの一般的に採用されている貪欲な戦略によって推論中に不注意で抑制されてしまい、新規クラスの検出パフォーマンスが次善の結果になってしまうことが明らかになりました。
この論文では、一般的に採用されている 2 段階 OVOD パラダイムに関するこの問題を体系的に調査します。
具体的には、領域提案段階では、新しいインスタンスを含む提案は、トレーニング段階で背景提案として扱われるため、オブジェクト性スコアが低くなります。
一方、オブジェクトの分類段階では、見られたトレーニング サンプルによる偏った視覚言語の対応付けにより、新しいオブジェクトの領域とテキストの類似性 (つまり、分類スコア) が低くなります。
この問題を軽減するために、この論文では、信頼度スコアを調整し、誤って無視されたオブジェクトを保存するための 2 つの高度な手段を導入します。(1) 領域/オブジェクト提案の重複度によるクラスに依存しない位置推定品質推定、および (2) テキストガイドによる視覚的類似性
新しいクラスのプロキシ プロトタイプを使用して推定します。
この論文は、領域提案およびオブジェクト分類段階のために特別に設計された調整手法と統合して、オープン語彙オブジェクト検出パラダイム (AggDet) の集計された信頼度推定値を導き出します。
当社の AggDet は、トレーニング不要の汎用的な後処理スキームであり、モデル スケールやアーキテクチャ設計全体でオープン語彙検出機能を一貫して強化します。
たとえば、AggDet はトレーニング コストなしで、OV-COCO ベンチマークと OV-LVIS ベンチマークでそれぞれ 3.3% と 1.5% の利益を得ています。
要約(オリジナル)
Open-vocabulary object detection (OVOD) aims at localizing and recognizing visual objects from novel classes unseen at the training time. Whereas, empirical studies reveal that advanced detectors generally assign lower scores to those novel instances, which are inadvertently suppressed during inference by commonly adopted greedy strategies like Non-Maximum Suppression (NMS), leading to sub-optimal detection performance for novel classes. This paper systematically investigates this problem with the commonly-adopted two-stage OVOD paradigm. Specifically, in the region-proposal stage, proposals that contain novel instances showcase lower objectness scores, since they are treated as background proposals during the training phase. Meanwhile, in the object-classification stage, novel objects share lower region-text similarities (i.e., classification scores) due to the biased visual-language alignment by seen training samples. To alleviate this problem, this paper introduces two advanced measures to adjust confidence scores and conserve erroneously dismissed objects: (1) a class-agnostic localization quality estimate via overlap degree of region/object proposals, and (2) a text-guided visual similarity estimate with proxy prototypes for novel classes. Integrated with adjusting techniques specifically designed for the region-proposal and object-classification stages, this paper derives the aggregated confidence estimate for the open-vocabulary object detection paradigm (AggDet). Our AggDet is a generic and training-free post-processing scheme, which consistently bolsters open-vocabulary detectors across model scales and architecture designs. For instance, AggDet receives 3.3% and 1.5% gains on OV-COCO and OV-LVIS benchmarks respectively, without any training cost.
arxiv情報
著者 | Yanhao Zheng,Kai Liu |
発行日 | 2024-04-12 17:02:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google