From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot Keypoint Detection

要約

タイトル:Saliency-guided Vision Transformerを用いたFew-shot Keypoint Detection

要約:
– Few-shot keypoint detection (FSKD)は、新しいあるいは既存のキーポイントを参照サンプルに応じて局所化する必要がある。
– FSKDはキーポイントの意味のある関係を学習し、ノイズと曖昧な局所パターンを克服するためのものである。
– この論文は、FSKDのための新しいSaliency-guided vision transformer (SalViT)の紹介を行っている。
– SalViTは設計が行われたマスク付き自己アテンションと形態学習者を備えており、それぞれによって背景に制限された自己アテンションが成功し、既存のViTよりも高い性能を発揮していることが示された。
– さらに、SalViTの上に、i)未ラベル化されたデータとキーポイント表現を強化するTransductive FSKDと、ii)覆いがけに対応するFSKDの研究が行われた。
– 実験は5つのPublic Datasetで行われ、大きな覆いがけがあるデータセットでも、SalViTは通常のTransformer Modelよりも効果的なことが示された。

要約(オリジナル)

Unlike current deep keypoint detectors that are trained to recognize limited number of body parts, few-shot keypoint detection (FSKD) attempts to localize any keypoints, including novel or base keypoints, depending on the reference samples. FSKD requires the semantically meaningful relations for keypoint similarity learning to overcome the ubiquitous noise and ambiguous local patterns. One rescue comes with vision transformer (ViT) as it captures long-range relations well. However, ViT may model irrelevant features outside of the region of interest due to the global attention matrix, thus degrading similarity learning between support and query features. In this paper, we present a novel saliency-guided vision transformer, dubbed SalViT, for few-shot keypoint detection. Our SalViT enjoys a uniquely designed masked self-attention and a morphology learner, where the former introduces saliency map as a soft mask to constrain the self-attention on foregrounds, while the latter leverages the so-called power normalization to adjust morphology of saliency map, realizing “dynamically changing receptive field”. Moreover, as salinecy detectors add computations, we show that attentive masks of DINO transformer can replace saliency. On top of SalViT, we also investigate i) transductive FSKD that enhances keypoint representations with unlabelled data and ii) FSKD under occlusions. We show that our model performs well on five public datasets and achieves ~10% PCK higher than the normally trained model under severe occlusions.

arxiv情報

著者 Changsheng Lu,Hao Zhu,Piotr Koniusz
発行日 2023-04-06 15:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク