Learning to Detect and Segment for Open Vocabulary Object Detection

要約

オープンボキャブラリーのオブジェクト検出は、視覚言語の事前トレーニング済みモデルの最近の開発によって大幅に進歩しました。これは、意味論的なカテゴリのみを持つ新しいオブジェクトを認識するのに役立ちます。
これまでの研究は主に、オブジェクト提案分類への知識の移行に焦点を当てており、クラスに依存しないボックスおよびマスク予測を採用しています。
この研究では、オープンボキャブラリー設定のためのボックス回帰とマスクセグメンテーションをより一般化するための原則に基づいた動的ネットワーク設計である CondHead を提案します。
中心的なアイデアは、セマンティック埋め込みでネットワーク ヘッドを条件付きでパラメータ化することであり、したがってモデルはクラス固有の知識に基づいて新しいカテゴリをより適切に検出します。
具体的には、CondHead は、動的に集約されたヘッドと動的に生成されたヘッドという 2 つのネットワーク ヘッドのストリームで構成されます。
前者は条件付きで集約された一連の静的ヘッドでインスタンス化され、これらのヘッドはエキスパートとして最適化され、高度な予測を学習することが期待されます。
後者は動的に生成されたパラメータでインスタンス化され、一般的なクラス固有の情報をエンコードします。
このような条件付き設計により、検出モデルはセマンティック埋め込みによってブリッジされ、強力に一般化可能なクラスごとのボックスおよびマスク予測を提供します。
私たちの方法は、非常にわずかなオーバーヘッドで最先端のオープンボキャブラリーオブジェクト検出方法に大幅な改善をもたらします。たとえば、計算量がわずか 1.1% 増加するだけで、新しいカテゴリの検出 AP が 3.0 倍になり、RegionClip モデルを上回ります。

要約(オリジナル)

Open vocabulary object detection has been greatly advanced by the recent development of vision-language pretrained model, which helps recognize novel objects with only semantic categories. The prior works mainly focus on knowledge transferring to the object proposal classification and employ class-agnostic box and mask prediction. In this work, we propose CondHead, a principled dynamic network design to better generalize the box regression and mask segmentation for open vocabulary setting. The core idea is to conditionally parameterize the network heads on semantic embedding and thus the model is guided with class-specific knowledge to better detect novel categories. Specifically, CondHead is composed of two streams of network heads, the dynamically aggregated head and the dynamically generated head. The former is instantiated with a set of static heads that are conditionally aggregated, these heads are optimized as experts and are expected to learn sophisticated prediction. The latter is instantiated with dynamically generated parameters and encodes general class-specific information. With such a conditional design, the detection model is bridged by the semantic embedding to offer strongly generalizable class-wise box and mask prediction. Our method brings significant improvement to the state-of-the-art open vocabulary object detection methods with very minor overhead, e.g., it surpasses a RegionClip model by 3.0 detection AP on novel categories, with only 1.1% more computation.

arxiv情報

著者 Tao Wang,Nan Li
発行日 2024-08-29 13:08:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク