Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot Class-Agnostic Counting

要約

タイトル:Vision Transformer Off-the-Shelf: Few-Shot Class-Agnostic Countingの驚くべきベースライン

要約:
– Class-agnostic counting (CAC)は、少数の例から目的のオブジェクトを数えるタスクである。
– 通常、このタスクは、クエリイメージと例からそれぞれ(共有していない)特徴抽出器を使って特徴を抽出し、その特徴類似性をマッチングすることによって実行される。
– この研究では、CACを、事前学習された普通のVision Transformer(ViT)を使って、特徴抽出と類似度マッチングを同時に自己注意内で実行するextract-and-match方式で簡素化できることを示す。
– この簡素化の理由を自己注意の分離された視点から明らかにし、クエリと例のトークンが入力として連結されている場合にのみ可能と指摘する。
– 結果として得られるCACViTモデルは、CACパイプラインを簡素化し、クエリイメージと例の間の特徴空間を統一する。
– さらに、CACViTは、自己注意内に背景情報を自然にエンコードするため、バックグラウンドの妨害を減らすのに役立つ。
– ViTのリサイズと正規化によるスケールと桁数の情報の欠落を補うために、スケールとマグニチュードの埋め込みの2つの効果的な戦略を示す。
– FSC147とCARPKのデータセットでの広範な実験により、CACViTが有効性(エラー率の23.60%削減)と汎化性で、最先端のCACアプローチを大幅に上回ることが示され、CACViTがCACの簡潔かつ強力なベースラインを提供することが示唆された。

要約(オリジナル)

Class-agnostic counting (CAC) aims to count objects of interest from a query image given few exemplars. This task is typically addressed by extracting the features of query image and exemplars respectively with (un)shared feature extractors and by matching their feature similarity, leading to an extract-\textit{then}-match paradigm. In this work, we show that CAC can be simplified in an extract-\textit{and}-match manner, particularly using a pretrained and plain vision transformer (ViT) where feature extraction and similarity matching are executed simultaneously within the self-attention. We reveal the rationale of such simplification from a decoupled view of the self-attention and point out that the simplification is only made possible if the query and exemplar tokens are concatenated as input. The resulting model, termed CACViT, simplifies the CAC pipeline and unifies the feature spaces between the query image and exemplars. In addition, we find CACViT naturally encodes background information within self-attention, which helps reduce background disturbance. Further, to compensate the loss of the scale and the order-of-magnitude information due to resizing and normalization in ViT, we present two effective strategies for scale and magnitude embedding. Extensive experiments on the FSC147 and the CARPK datasets show that CACViT significantly outperforms state-of-the-art CAC approaches in both effectiveness (23.60% error reduction) and generalization, which suggests CACViT provides a concise and strong baseline for CAC. Code will be available.

arxiv情報

著者 Zhicheng Wang,Liwen Xiao,Zhiguo Cao,Hao Lu
発行日 2023-05-08 03:25:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク