要約
人間のポーズの推定により、アクション認識、スポーツ分析、監視など、幅広い斬新で説得力のあるアプリケーションが生まれました。
ただし、正確なビデオポーズの推定は、依然としてオープンな課題です。
これまで見落とされてきた1つの側面は、既存の方法がターゲットの人体に焦点を合わせるのではなく、すべてのピクセルからのモーションの手がかりを学ぶことであり、他の人の背景の変化や動きなどの重要な情報によって簡単に誤解され、混乱することです。
さらに、現在の変圧器ベースのポーズ推定方法は、グローバルモデリングで印象的なパフォーマンスを実証していますが、ローカルコンテキスト認識と正確な位置識別に苦労しています。
このホワイトペーパーでは、これらの課題に3つの側面から取り組むようにしています。(1)粗から洗練された視覚トークンの洗練を実行する二重層のヒューマンキーポイントマスクモジュールを提案します。
重要でない人物領域を出します。
(2)さらに、縮小した周囲のコンテキストから空間的および時間的運動の手がかりを適応的に凝集させるために、新しい変形可能な交差注意メカニズムと双方向分離戦略を導入します。
(3)変形可能な交差注意を数学的に定式化し、モデルがターゲットパーソンボディを中心にした領域のみに焦点を合わせていることを制約します。
経験的に、私たちの方法は、3つの大規模なベンチマークデータセットで最先端のパフォーマンスを実現します。
驚くべきハイライトは、私たちの方法が、挑戦的なリストジョイントで84.8平均平均精度(MAP)を達成することです。
要約(オリジナル)
Human pose estimation has given rise to a broad spectrum of novel and compelling applications, including action recognition, sports analysis, as well as surveillance. However, accurate video pose estimation remains an open challenge. One aspect that has been overlooked so far is that existing methods learn motion clues from all pixels rather than focusing on the target human body, making them easily misled and disrupted by unimportant information such as background changes or movements of other people. Additionally, while the current Transformer-based pose estimation methods has demonstrated impressive performance with global modeling, they struggle with local context perception and precise positional identification. In this paper, we try to tackle these challenges from three aspects: (1) We propose a bilayer Human-Keypoint Mask module that performs coarse-to-fine visual token refinement, which gradually zooms in on the target human body and keypoints while masking out unimportant figure regions. (2) We further introduce a novel deformable cross attention mechanism and a bidirectional separation strategy to adaptively aggregate spatial and temporal motion clues from constrained surrounding contexts. (3) We mathematically formulate the deformable cross attention, constraining that the model focuses solely on the regions centered at the target person body. Empirically, our method achieves state-of-the-art performance on three large-scale benchmark datasets. A remarkable highlight is that our method achieves an 84.8 mean Average Precision (mAP) on the challenging wrist joint, which significantly outperforms the 81.5 mAP achieved by the current state-of-the-art method on the PoseTrack2017 dataset.
arxiv情報
著者 | Yingying Jiao,Zhigang Wang,Zhenguang Liu,Shaojing Fan,Sifan Wu,Zheqi Wu,Zhuoyue Xu |
発行日 | 2025-01-24 12:17:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google