VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting

要約

Zero-Shot Object Counting (ZSOC) は、人間による注釈付きの見本を使用せずに、クエリ イメージ内の任意のクラスの参照インスタンスをカウントすることを目的としています。
ZSOC に対処するために、先行研究では、サンプルの発見とカウントという 2 段階のパイプラインが提案されています。
しかし、逐次的に設計された 2 段階のプロセスにはエラー伝播に対する脆弱性という課題が残っています。
この研究では、CLIP のセマンティック パッチ埋め込みの暗黙的な関連付けを調査する 1 段階のベースラインである Visual-Language Baseline (VLBase) が提案されています。
その後、オブジェクト カウント用に VLBase を調整するために考案された 3 つのモジュールを組み込むことにより、VLBase の Visual- language Counter (VLCounter) への拡張が実現されました。
まず、セマンティック条件付きプロンプト チューニング (SPT) が画像エンコーダ内に導入され、ターゲットが強調表示された表現が取得されます。
第 2 に、学習可能なアフィン変換 (LAT) を使用して、セマンティック パッチの類似性マップをカウント タスクに適したものに変換します。
最後に、レイヤーごとにエンコードされた機能は、セグメント認識スキップ接続 (SaSC) を通じてデコーダーに転送され、目に見えないクラスの一般化機能が維持されます。
FSC147、CARPK、および PUCPR+ に関する広範な実験を通じて、エンドツーエンド フレームワークである VLCounter の利点が実証されました。

要約(オリジナル)

Zero-Shot Object Counting (ZSOC) aims to count referred instances of arbitrary classes in a query image without human-annotated exemplars. To deal with ZSOC, preceding studies proposed a two-stage pipeline: discovering exemplars and counting. However, there remains a challenge of vulnerability to error propagation of the sequentially designed two-stage process. In this work, an one-stage baseline, Visual-Language Baseline (VLBase), exploring the implicit association of the semantic-patch embeddings of CLIP is proposed. Subsequently, the extension of VLBase to Visual-language Counter (VLCounter) is achieved by incorporating three modules devised to tailor VLBase for object counting. First, Semantic-conditioned Prompt Tuning (SPT) is introduced within the image encoder to acquire target-highlighted representations. Second, Learnable Affine Transformation (LAT) is employed to translate the semantic-patch similarity map to be appropriate for the counting task. Lastly, the layer-wisely encoded features are transferred to the decoder through Segment-aware Skip Connection (SaSC) to keep the generalization capability for unseen classes. Through extensive experiments on FSC147, CARPK, and PUCPR+, the benefits of the end-to-end framework, VLCounter, are demonstrated.

arxiv情報

著者 Seunggu Kang,WonJun Moon,Euiyeon Kim,Jae-Pil Heo
発行日 2023-12-31 03:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク