Language-driven Open-Vocabulary Keypoint Detection for Animal Body and Face

要約

動物 (人間を含む) の体と顔の画像ベースのキーポイント検出に対する現在のアプローチは、特定のキーポイントと種に限定されています。
私たちは、Open-Vocabulary Keypoint Detection (OVKD) タスクを提案することで、この制限に対処します。
テキスト プロンプトを使用して、あらゆる種の任意のキーポイントをローカライズすることを目的としています。
この目的を達成するために、私たちは意味特徴マッチングによるオープン語彙キーポイント検出 (KDSM) を提案します。これは、視覚モデルと言語モデルの両方を利用してテキストと視覚の関係を活用し、テキスト プロンプトを関連するキーポイント特徴と関連付けることでキーポイント検出を実現します。
さらに、KDSM は、言語と視覚の関係を強化するためにドメイン分布行列のマッチングといくつかの特別な設計を統合し、それによってモデルの一般化性とパフォーマンスを向上させます。
広範な実験により、私たちが提案したコンポーネントが大幅なパフォーマンスの向上をもたらし、私たちの全体的な方法が OVKD で素晴らしい結果を達成することが示されました。
驚くべきことに、私たちの方法は、ゼロショット方式を使用した最先端の少数ショットキーポイント検出方法よりも優れています。
ソースコードは公開します。

要約(オリジナル)

Current approaches for image-based keypoint detection on animal (including human) body and face are limited to specific keypoints and species. We address the limitation by proposing the Open-Vocabulary Keypoint Detection (OVKD) task. It aims to use text prompts to localize arbitrary keypoints of any species. To accomplish this objective, we propose Open-Vocabulary Keypoint Detection with Semantic-feature Matching (KDSM), which utilizes both vision and language models to harness the relationship between text and vision and thus achieve keypoint detection through associating text prompt with relevant keypoint features. Additionally, KDSM integrates domain distribution matrix matching and some special designs to reinforce the relationship between language and vision, thereby improving the model’s generalizability and performance. Extensive experiments show that our proposed components bring significant performance improvements, and our overall method achieves impressive results in OVKD. Remarkably, our method outperforms the state-of-the-art few-shot keypoint detection methods using a zero-shot fashion. We will make the source code publicly accessible.

arxiv情報

著者 Hao Zhang,Kaipeng Zhang,Lumin Xu,Shenqi Lai,Wenqi Shao,Nanning Zheng,Ping Luo,Yu Qiao
発行日 2023-10-10 11:18:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク