要約
ビデオベースの人間の姿勢推定 (VHPE) は、重要かつ困難なタスクです。
深層学習手法は VHPE にとって大きな進歩を遂げましたが、このタスクに対するほとんどのアプローチは、畳み込みの受容野を拡大することによって関節間の長距離相互作用を暗黙的にモデル化します。
従来の方法とは異なり、軽量でプラグアンドプレイのジョイント関係エクストラクター (JRE) を設計し、ジョイント間の結合関係を明示的かつ自動的にモデル化します。
JRE は、ジョイントの擬似ヒートマップを入力として受け取り、擬似ヒートマップ間の類似性を計算します。
このようにして、JRE は任意の 2 つの関節間の関係を柔軟に学習し、人間のポーズの豊富な空間構成を学習できるようになります。
さらに、JRE は関節間の関係に従って目に見えない関節を推測できるため、モデルが閉塞した関節を特定するのに役立ちます。
次に、時間的意味連続性モデリングと組み合わせて、ビデオベースの人間の姿勢推定のための関係ベースの姿勢意味転送ネットワーク (RPSTN) を提案します。
具体的には、ポーズの時間的ダイナミクスをキャプチャするために、ジョイント関係ガイド付きポーズ セマンティクス プロパゲーター (JRPSP) を使用して、現在のフレームのポーズ セマンティック情報が次のフレームに転送されます。
提案されたモデルは、ポーズの意味論的特徴をオクルージョンされていないフレームからオクルージョンされたフレームに転送できるため、私たちの方法はオクルージョンに対して堅牢になります。
さらに、提案された JRE モジュールは、画像ベースの人間の姿勢推定にも適しています。
提案された RPSTN は、ビデオベースの Penn Action データセット、Sub-JHMDB データセット、および PoseTrack2018 データセットで最先端の結果を達成します。
さらに、提案された JRE は、画像ベースの COCO2017 データセット上のバックボーンのパフォーマンスを向上させます。
コードは https://github.com/YHDang/pose-estimation で入手できます。
要約(オリジナル)
Video-based human pose estimation (VHPE) is a vital yet challenging task. While deep learning methods have made significant progress for the VHPE, most approaches to this task implicitly model the long-range interaction between joints by enlarging the receptive field of the convolution. Unlike prior methods, we design a lightweight and plug-and-play joint relation extractor (JRE) to model the associative relationship between joints explicitly and automatically. The JRE takes the pseudo heatmaps of joints as input and calculates the similarity between pseudo heatmaps. In this way, the JRE flexibly learns the relationship between any two joints, allowing it to learn the rich spatial configuration of human poses. Moreover, the JRE can infer invisible joints according to the relationship between joints, which is beneficial for the model to locate occluded joints. Then, combined with temporal semantic continuity modeling, we propose a Relation-based Pose Semantics Transfer Network (RPSTN) for video-based human pose estimation. Specifically, to capture the temporal dynamics of poses, the pose semantic information of the current frame is transferred to the next with a joint relation guided pose semantics propagator (JRPSP). The proposed model can transfer the pose semantic features from the non-occluded frame to the occluded frame, making our method robust to the occlusion. Furthermore, the proposed JRE module is also suitable for image-based human pose estimation. The proposed RPSTN achieves state-of-the-art results on the video-based Penn Action dataset, Sub-JHMDB dataset, and PoseTrack2018 dataset. Moreover, the proposed JRE improves the performance of backbones on the image-based COCO2017 dataset. Code is available at https://github.com/YHDang/pose-estimation.
arxiv情報
著者 | Yonghao Dang,Jianqin Yin,Shaojie Zhang |
発行日 | 2023-06-30 09:52:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google