DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

要約

【タイトル】DetCLIPv2 – 語彙を拡張可能な物体検出のための、単語と領域の整合性を利用した効率的な学習フレームワーク

【要約】
– DetCLIPv2は、大規模な画像とテキストのペアを取り入れた、効率的でスケーラブルなトレーニングフレームワークであり、オープンボキャブラリーの物体検出(OVD)を達成する
– 従来のOVDフレームワークは、一般的に事前にトレーニングされたビジョン言語モデル(例:CLIP)に依存するか、疑似ラベリングプロセスを介して画像 – テキストペアを利用するが、DetCLIPv2は直接学習する
– DetCLIPv2は、芽生え始めた単語領域の整合性を再学習させることで、規模の大きい画像 – テキストペアからアクセス可能な効率的な検出オブジェクト検出型式である
– DetCLIPv2は、検出、グラウンディング、およびイメージテキストペアデータから統一されたデータフォーミュレーションの下でハイブリッド指導を採用して訓練され、ローズキュレーションのイメージテキストペアと交互に訓練される
– DetCLIPv2を13Mのイメージテキストペアを用いて訓練することにより、DetCLIPよりも13倍のイメージテキストペアを活用し、同じトレーニング時間でパフォーマンスを向上させることができる
– Swin-Tバックボーンを使用するDetCLIPv2は、LVISベンチマークで40.4%のゼロショットAPを達成し、GLIP / GLIPv2 / DetCLIPの以前の作品を上回り、完全に指導された対照作品を大幅に上回る性能を示す

要約(オリジナル)

This paper presents DetCLIPv2, an efficient and scalable training framework that incorporates large-scale image-text pairs to achieve open-vocabulary object detection (OVD). Unlike previous OVD frameworks that typically rely on a pre-trained vision-language model (e.g., CLIP) or exploit image-text pairs via a pseudo labeling process, DetCLIPv2 directly learns the fine-grained word-region alignment from massive image-text pairs in an end-to-end manner. To accomplish this, we employ a maximum word-region similarity between region proposals and textual words to guide the contrastive objective. To enable the model to gain localization capability while learning broad concepts, DetCLIPv2 is trained with a hybrid supervision from detection, grounding and image-text pair data under a unified data formulation. By jointly training with an alternating scheme and adopting low-resolution input for image-text pairs, DetCLIPv2 exploits image-text pair data efficiently and effectively: DetCLIPv2 utilizes 13X more image-text pairs than DetCLIP with a similar training time and improves performance. With 13M image-text pairs for pre-training, DetCLIPv2 demonstrates superior open-vocabulary detection performance, e.g., DetCLIPv2 with Swin-T backbone achieves 40.4% zero-shot AP on the LVIS benchmark, which outperforms previous works GLIP/GLIPv2/DetCLIP by 14.4/11.4/4.5% AP, respectively, and even beats its fully-supervised counterpart by a large margin.

arxiv情報

著者 Lewei Yao,Jianhua Han,Xiaodan Liang,Dan Xu,Wei Zhang,Zhenguo Li,Hang Xu
発行日 2023-04-10 11:08:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク