要約
RopeTPは、ロバスト姿勢推定と拡散軌跡優先法を組み合わせた新しいフレームワークであり、動画から大域的な人間の動きを再構成する。RopeTPの核となるのは、オクルーデッドな身体部位の姿勢を正確に推測するために不可欠なコンテキスト認識を大幅に改善する階層的注意メカニズムである。これは目に見える解剖学的構造との関係を利用することで達成され、局所的な姿勢推定の精度を向上させる。これらの局所推定のロバスト性が向上することで、正確で安定した大域的な軌跡の再構築が可能になる。さらに、RopeTPには、局所的なポーズシーケンスから現実的な人間の動きを予測する拡散軌道モデルが組み込まれています。このモデルは、生成された軌道が、観察された局所的な動作と一致するだけでなく、時間経過とともに自然に展開することを保証し、3D人体運動再構成のリアリズムと安定性を向上させる。広範な実験的検証により、RopeTPは2つのベンチマークデータセットにおいて現在の手法を上回り、特にオクルージョンのあるシナリオにおいて優れていることが示された。また、初期カメラ推定と広範な最適化のためにSLAMに依存する手法よりも優れており、より正確でリアルな軌道を提供する。
要約(オリジナル)
We present RopeTP, a novel framework that combines Robust pose estimation with a diffusion Trajectory Prior to reconstruct global human motion from videos. At the heart of RopeTP is a hierarchical attention mechanism that significantly improves context awareness, which is essential for accurately inferring the posture of occluded body parts. This is achieved by exploiting the relationships with visible anatomical structures, enhancing the accuracy of local pose estimations. The improved robustness of these local estimations allows for the reconstruction of precise and stable global trajectories. Additionally, RopeTP incorporates a diffusion trajectory model that predicts realistic human motion from local pose sequences. This model ensures that the generated trajectories are not only consistent with observed local actions but also unfold naturally over time, thereby improving the realism and stability of 3D human motion reconstruction. Extensive experimental validation shows that RopeTP surpasses current methods on two benchmark datasets, particularly excelling in scenarios with occlusions. It also outperforms methods that rely on SLAM for initial camera estimates and extensive optimization, delivering more accurate and realistic trajectories.
arxiv情報
著者 | Mingjiang Liang,Yongkang Cheng,Hualin Liang,Shaoli Huang,Wei Liu |
発行日 | 2024-11-01 09:20:53+00:00 |
arxivサイト | arxiv_id(pdf) |