STAF: 3D Human Mesh Recovery from Video with Spatio-Temporal Alignment Fusion

要約

近年、単眼画像から3次元人体メッシュを復元する研究が盛んに行われている。しかし、既存のモデルは通常、空間的・時間的情報を無視しているため、メッシュと画像の位置ずれや時間的不連続を引き起こす可能性がある。このため、我々は新しい時空間アライメント融合(STAF)モデルを提案する。ビデオベースのモデルとして、注意ベースの時間コヒーレンス融合モジュール(TCFM)により、人間の動きからのコヒーレンスの手がかりを活用する。空間的なメッシュアライメントの証拠としては、予測されたメッシュを特徴マップに投影することで、きめ細かな局所情報を抽出する。空間的特徴に基づき、さらに多段階隣接空間アライメント融合モジュール(SAFM)を導入し、ターゲットフレームの特徴表現を強化する。上記に加えて、ターゲットフレームだけでなく、入力シーケンス全体にモデルがフォーカスできるように、アベレージプーリングモジュール(APM)を提案する。この方法により、映像からの復元結果の滑らかさを著しく向上させることができる。3DPW、MPII3D、H36Mでの広範な実験により、STAFの優位性が実証された。我々は、精度と滑らかさの間で最先端のトレードオフを達成した。私たちのコードとその他のビデオ結果は、プロジェクトページ https://yw0208.github.io/staf/ にあります。

要約(オリジナル)

The recovery of 3D human mesh from monocular images has significantly been developed in recent years. However, existing models usually ignore spatial and temporal information, which might lead to mesh and image misalignment and temporal discontinuity. For this reason, we propose a novel Spatio-Temporal Alignment Fusion (STAF) model. As a video-based model, it leverages coherence clues from human motion by an attention-based Temporal Coherence Fusion Module (TCFM). As for spatial mesh-alignment evidence, we extract fine-grained local information through predicted mesh projection on the feature maps. Based on the spatial features, we further introduce a multi-stage adjacent Spatial Alignment Fusion Module (SAFM) to enhance the feature representation of the target frame. In addition to the above, we propose an Average Pooling Module (APM) to allow the model to focus on the entire input sequence rather than just the target frame. This method can remarkably improve the smoothness of recovery results from video. Extensive experiments on 3DPW, MPII3D, and H36M demonstrate the superiority of STAF. We achieve a state-of-the-art trade-off between precision and smoothness. Our code and more video results are on the project page https://yw0208.github.io/staf/

arxiv情報

著者 Wei Yao,Hongwen Zhang,Yunlian Sun,Jinhui Tang
発行日 2024-01-03 13:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク