Zero-shot Object Counting with Good Exemplars


ゼロショット オブジェクト カウンティング (ZOC) は、手動による注釈を必要とせず、テスト中にオブジェクト クラスの名前のみを使用して画像内のオブジェクトを列挙することを目的としています。
しかし、現在の ZOC 手法の重大な課題は、高品質の標本を効果的に識別できないことにあります。
この目的を達成するために、ビジュアル アソシエーション ベースのゼロショット オブジェクト カウンティング (VA-Count) フレームワークを提案します。
VA-Count は、クラス見本識別のプロセスを相乗的に改善し、不正確なオブジェクト識別の影響を最小限に抑えるエグザンプラ拡張モジュール (EEM) とノイズ抑制モジュール (NSM) で構成されています。
EEM は、高度なビジョン言語保存モデルを利用して潜在的なサンプルを発見し、フレームワークのさまざまなクラスへの適応性を確保します。
一方、NSM は対照学習を採用して、最適な見本と次善の見本ペアを区別し、誤った見本による悪影響を軽減します。
VA-Count は、ゼロショット コンテキストでの有効性とスケーラビリティを実証し、2 つの物体計数データセットで優れたパフォーマンスを発揮します。


Zero-shot object counting (ZOC) aims to enumerate objects in images using only the names of object classes during testing, without the need for manual annotations. However, a critical challenge in current ZOC methods lies in their inability to identify high-quality exemplars effectively. This deficiency hampers scalability across diverse classes and undermines the development of strong visual associations between the identified classes and image content. To this end, we propose the Visual Association-based Zero-shot Object Counting (VA-Count) framework. VA-Count consists of an Exemplar Enhancement Module (EEM) and a Noise Suppression Module (NSM) that synergistically refine the process of class exemplar identification while minimizing the consequences of incorrect object identification. The EEM utilizes advanced vision-language pretaining models to discover potential exemplars, ensuring the framework’s adaptability to various classes. Meanwhile, the NSM employs contrastive learning to differentiate between optimal and suboptimal exemplar pairs, reducing the negative effects of erroneous exemplars. VA-Count demonstrates its effectiveness and scalability in zero-shot contexts with superior performance on two object counting datasets.


著者 Huilin Zhu,Jingling Yuan,Zhengwei Yang,Yu Guo,Zheng Wang,Xian Zhong,Shengfeng He
発行日 2024-07-09 13:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク