Learning Structure-Supporting Dependencies via Keypoint Interactive Transformer for General Mammal Pose Estimation

要約

一般的な哺乳類のポーズ推定は、コンピュータービジョンにおける重要で挑戦的なタスクであり、実際のアプリケーションで哺乳類の行動を理解するために不可欠です。
ただし、既存の研究は予備研究段階にあり、いくつかの特定の哺乳類種のみの問題に対処することに焦点を当てています。
原則として、特定の哺乳類のポーズ推定から一般的な問題は、最大の問題は、異なる種の巨大な外観に対処し、違いをもたらす方法です。
私たちは、外観のコンテキスト、インスタンスレベルの事前とキーポイント間の構造的関係が補完的な証拠として機能する可能性があると主張します。
この目的のために、一般的な哺乳類のポーズ推定のためにインスタンスレベルの構造サポート依存関係を学習するために、キーポイントインタラクティブトランス(キット)を提案します。
具体的には、私たちのキタスは2つの結合コンポーネントで構成されています。
最初のコンポーネントは、キーポイント機能を抽出し、ボディパーツプロンプトを生成することです。
機能は、専用の一般化ヒートマップ回帰損失(GHRL)によって監督されています。
外部のビジュアル/テキストプロンプトを導入する代わりに、キーポイントクラスタリングを考案してボディパーツバイアスを生成し、それらを画像コンテキストに合わせて対応するインスタンスレベルのプロンプトを生成します。
第二に、空間分割を実行せずに入力トークンとして機能スライスを採用する新しいインタラクティブな変圧器を提案します。
さらに、キットモデルの機能を強化するために、さまざまなキーポイント間の不均衡の問題に対処するための適応体重戦略を設計します。

要約(オリジナル)

General mammal pose estimation is an important and challenging task in computer vision, which is essential for understanding mammal behaviour in real-world applications. However, existing studies are at their preliminary research stage, which focus on addressing the problem for only a few specific mammal species. In principle, from specific to general mammal pose estimation, the biggest issue is how to address the huge appearance and pose variances for different species. We argue that given appearance context, instance-level prior and the structural relation among keypoints can serve as complementary evidence. To this end, we propose a Keypoint Interactive Transformer (KIT) to learn instance-level structure-supporting dependencies for general mammal pose estimation. Specifically, our KITPose consists of two coupled components. The first component is to extract keypoint features and generate body part prompts. The features are supervised by a dedicated generalised heatmap regression loss (GHRL). Instead of introducing external visual/text prompts, we devise keypoints clustering to generate body part biases, aligning them with image context to generate corresponding instance-level prompts. Second, we propose a novel interactive transformer that takes feature slices as input tokens without performing spatial splitting. In addition, to enhance the capability of the KIT model, we design an adaptive weight strategy to address the imbalance issue among different keypoints.

arxiv情報

著者 Tianyang Xu,Jiyong Rao,Xiaoning Song,Zhenhua Feng,Xiao-Jun Wu
発行日 2025-02-25 13:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク