PromptPose: Language Prompt Helps Animal Pose Estimation

要約

最近、動物の行動の理解に焦点を当てた動物の姿勢の推定が、学界(野生生物や保全生物学など)からますます関心を集めています。
ただし、現在、動物のポーズ推定は、データセットが小さく、データの分散が大きいため、堅牢なパフォーマンスを得ることが困難です。
この問題に取り組むために、言語モデルによって学習されたポーズ関連のセマンティクス間の関係に関する豊富な知識を利用して、動物のポーズ推定を改善できることを提案します。
したがって、この研究では、迅速なトレーニングに基づいて動物のポーズをよりよく理解するために言語モデルを効果的に適用するための新しいPromptPoseフレームワークを紹介します。
PromptPoseでは、言語知識を視覚的な動物のポーズに適応させることが、効果的な動物のポーズ推定を実現するための鍵であることを提案します。
この目的のために、最初にテキストプロンプトを導入して、テキストのセマンティック記述とサポートする動物のキーポイント機能の間の接続を構築します。
さらに、テキストの説明とローカル画像の特徴との間に密な関係を構築するためのピクセルレベルのコントラスト損失、および言語画像のクロスモーダル事前トレーニングにおけるグローバルコントラスト間のギャップを埋めるためのセマンティックレベルのコントラスト損失をさらに考案します。
密な予測における局所的な対比。
実際には、PromptPoseは、動物のポーズ推定を改善するための大きな利点を示しています。
広範な実験を実施することにより、PromptPoseは、監視あり設定と数ショット設定の両方で優れたパフォーマンスを実現し、代表的な方法を大幅に上回っていることを示しています。
ソースコードとモデルは公開されます。

要約(オリジナル)

Recently, animal pose estimation is attracting increasing interest from the academia (e.g., wildlife and conservation biology) focusing on animal behavior understanding. However, currently animal pose estimation suffers from small datasets and large data variances, making it difficult to obtain robust performance. To tackle this problem, we propose that the rich knowledge about relations between pose-related semantics learned by language models can be utilized to improve the animal pose estimation. Therefore, in this study, we introduce a novel PromptPose framework to effectively apply language models for better understanding the animal poses based on prompt training. In PromptPose, we propose that adapting the language knowledge to the visual animal poses is key to achieve effective animal pose estimation. To this end, we first introduce textual prompts to build connections between textual semantic descriptions and supporting animal keypoint features. Moreover, we further devise a pixel-level contrastive loss to build dense connections between textual descriptions and local image features, as well as a semantic-level contrastive loss to bridge the gap between global contrasts in language-image cross-modal pre-training and local contrasts in dense prediction. In practice, the PromptPose has shown great benefits for improving animal pose estimation. By conducting extensive experiments, we show that our PromptPose achieves superior performance under both supervised and few-shot settings, outperforming representative methods by a large margin. The source code and models will be made publicly available.

arxiv情報

著者 Xu Zhang,Wen Wang,Zhe Chen,Jing Zhang,Dacheng Tao
発行日 2022-06-23 14:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク