CLIP-Count: Towards Text-Guided Zero-Shot Object Counting

要約

近年の視覚言語モデルの進歩により、テキストと画像のマッチングに優れた能力を発揮し、物体検出やセグメンテーションなどの下流タスクに移行することができるようになりました。しかし、これらのモデルを画像中の物体の数を推定する物体計数に適応させることは、依然として困難な課題である。本研究では、クラスに依存しないオブジェクトカウンティングのための視覚言語モデルの移植について、初めて検討を行う。具体的には、特定のオブジェクトクラスに関する微調整を必要とせず、ゼロショットでテキストガイダンスを用いてオープンボキャブラリーオブジェクトの密度マップを推定する新規パイプラインであるCLIP-Countを提案する。テキスト埋め込みを高密度画像特徴と整合させるために、高密度予測のための情報量の多いパッチレベルの画像表現を学習するようモデルを誘導するパッチ-テキスト対比損失を導入する。さらに、画像特徴の異なる解像度レベルにわたって意味情報を伝播する、階層的なパッチ-テキスト相互作用モジュールを設計する。事前学習された視覚言語モデルの豊富な画像-テキストアライメント知識をフルに活用することで、本手法は興味あるオブジェクトの高品質な密度マップを効果的に生成します。FSC-147、CARPK、ShanghaiTechの群衆計数データセットを用いた広範な実験により、本提案手法がゼロショット物体計数において最先端の精度と一般性を達成することが示された。https://github.com/songrise/CLIP-Count のプロジェクトページ

要約(オリジナル)

Recent advances in visual-language models have shown remarkable zero-shot text-image matching ability that is transferable to down-stream tasks such as object detection and segmentation. However, adapting these models for object counting, which involves estimating the number of objects in an image, remains a formidable challenge. In this study, we conduct the first exploration of transferring visual-language models for class-agnostic object counting. Specifically, we propose CLIP-Count, a novel pipeline that estimates density maps for open-vocabulary objects with text guidance in a zero-shot manner, without requiring any finetuning on specific object classes. To align the text embedding with dense image features, we introduce a patch-text contrastive loss that guides the model to learn informative patch-level image representations for dense prediction. Moreover, we design a hierarchical patch-text interaction module that propagates semantic information across different resolution levels of image features. Benefiting from the full exploitation of the rich image-text alignment knowledge of pretrained visual-language models, our method effectively generates high-quality density maps for objects-of-interest. Extensive experiments on FSC-147, CARPK, and ShanghaiTech crowd counting datasets demonstrate that our proposed method achieves state-of-the-art accuracy and generalizability for zero-shot object counting. Project page at https://github.com/songrise/CLIP-Count

arxiv情報

著者 Ruixiang Jiang,Lingbo Liu,Changwen Chen
発行日 2023-05-12 08:19:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク