Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection

要約

オープン語彙オブジェクト検出は、オブジェクト カテゴリの固定セットでトレーニングされたオブジェクト検出器に、任意のテキスト クエリによって記述されたオブジェクトを検出する一般化可能性を提供することを目的としています。
以前の方法では、知識の蒸留を採用して、事前学習済みの視覚言語モデル (PVLM) から知識を抽出し、それを検出器に転送していました。
ただし、非適応提案クロッピングと単一レベル機能模倣プロセスにより、知識抽出中の情報破壊と非効率的な知識伝達に悩まされています。
これらの制限を改善するために、オブジェクト認識知識抽出 (OAKE) モジュールと蒸留ピラミッド (DP) メカニズムを含む、オブジェクト認識蒸留ピラミッド (OADP) フレームワークを提案します。
PVLM からオブジェクトの知識を抽出するとき、前者はオブジェクトの提案を適応的に変換し、オブジェクト認識マスクの注意を採用して、オブジェクトの正確かつ完全な知識を取得します。
後者は、オブジェクトの蒸留で欠落している関係情報を補うために、より包括的な知識伝達のためにグローバルおよびブロックの蒸留を導入します。
広範な実験により、私たちの方法が現在の方法と比較して大幅な改善を達成することが示されています。
特に MS-COCO データセットでは、OADP フレームワークは $35.6$ mAP$^{\text{N}}_{50}$ に達し、現在の最先端の方法を $3.3$ mAP$^{\text 上回っています。
{N}}_{50}$。
コードは https://github.com/LutingWang/OADP で公開されています。

要約(オリジナル)

Open-vocabulary object detection aims to provide object detectors trained on a fixed set of object categories with the generalizability to detect objects described by arbitrary text queries. Previous methods adopt knowledge distillation to extract knowledge from Pretrained Vision-and-Language Models (PVLMs) and transfer it to detectors. However, due to the non-adaptive proposal cropping and single-level feature mimicking processes, they suffer from information destruction during knowledge extraction and inefficient knowledge transfer. To remedy these limitations, we propose an Object-Aware Distillation Pyramid (OADP) framework, including an Object-Aware Knowledge Extraction (OAKE) module and a Distillation Pyramid (DP) mechanism. When extracting object knowledge from PVLMs, the former adaptively transforms object proposals and adopts object-aware mask attention to obtain precise and complete knowledge of objects. The latter introduces global and block distillation for more comprehensive knowledge transfer to compensate for the missing relation information in object distillation. Extensive experiments show that our method achieves significant improvement compared to current methods. Especially on the MS-COCO dataset, our OADP framework reaches $35.6$ mAP$^{\text{N}}_{50}$, surpassing the current state-of-the-art method by $3.3$ mAP$^{\text{N}}_{50}$. Code is released at https://github.com/LutingWang/OADP.

arxiv情報

著者 Luting Wang,Yi Liu,Penghui Du,Zihan Ding,Yue Liao,Qiaosong Qi,Biaolong Chen,Si Liu
発行日 2023-03-10 12:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク