Spatio-temporal Tendency Reasoning for Human Body Pose and Shape Estimation from Videos

要約

この論文では、ビデオから人体の姿勢と形状を復元するための時空間傾向推論 (STR) ネットワークを提示します。
以前のアプローチは、3D の人間のデータセットと時間ベースの学習を拡張して、精度と時間の平滑化を促進する方法に焦点を当てていました。
それらとは異なり、私たちの STR は、時間的および空間的な傾向を通じて制約のない環境で正確かつ自然なモーション シーケンスを学習し、既存のビデオ データの時空間的特徴を十分に発掘することを目的としています。
この目的のために、STR は、時空間特徴のより堅牢な表現に集中するために、それぞれ時間次元と空間次元の特徴の表現を学習します。
より具体的には、効率的な時間モデリングのために、まず時間傾向推論 (TTR) モジュールを提案します。
TTR は、ビデオ シーケンス内の時間次元の階層的な残差接続表現を構​​築して、時系列の傾向を効果的に推論し、人間の情報の効果的な普及を維持します。
一方、空間表現を強化するために、空間傾向強化(STE)モジュールを設計して、人間の運動情報表現における空間時間周波数ドメインに敏感な特徴を励起することをさらに学習します。
最後に、時空間特徴表現を統合および改良するための統合戦略を紹介します。
公開されている大規模なデータセットに関する広範な実験結果により、STR が 3 つのデータセットで最先端の技術と競争力を維持していることが明らかになりました。
コードは https://github.com/Changboyang/STR.git で入手できます。

要約(オリジナル)

In this paper, we present a spatio-temporal tendency reasoning (STR) network for recovering human body pose and shape from videos. Previous approaches have focused on how to extend 3D human datasets and temporal-based learning to promote accuracy and temporal smoothing. Different from them, our STR aims to learn accurate and natural motion sequences in an unconstrained environment through temporal and spatial tendency and to fully excavate the spatio-temporal features of existing video data. To this end, our STR learns the representation of features in the temporal and spatial dimensions respectively, to concentrate on a more robust representation of spatio-temporal features. More specifically, for efficient temporal modeling, we first propose a temporal tendency reasoning (TTR) module. TTR constructs a time-dimensional hierarchical residual connection representation within a video sequence to effectively reason temporal sequences’ tendencies and retain effective dissemination of human information. Meanwhile, for enhancing the spatial representation, we design a spatial tendency enhancing (STE) module to further learns to excite spatially time-frequency domain sensitive features in human motion information representations. Finally, we introduce integration strategies to integrate and refine the spatio-temporal feature representations. Extensive experimental findings on large-scale publically available datasets reveal that our STR remains competitive with the state-of-the-art on three datasets. Our code are available at https://github.com/Changboyang/STR.git.

arxiv情報

著者 Boyang Zhang,SuPing Wu,Hu Cao,Kehua Ma,Pan Li,Lei Lin
発行日 2022-10-10 03:24:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク