STRIDE: Single-video based Temporally Continuous Occlusion-Robust 3D Pose Estimation

要約

人間の3Dポーズを正確に推定する能力は、行動認識、歩行認識、仮想現実/拡張現実などの多様な分野において極めて重要である。しかし、この分野における永続的かつ重要な課題は、深刻なオクルージョンの状況下で人間のポーズを正確に予測することである。従来の画像ベースの推定器は、時間的コンテキストの欠如により、オクルージョンが激しい場合に苦戦し、予測に一貫性がなくなります。ビデオベースのモデルは、時間的なデータを処理できる利点がある一方で、複数フレームに及ぶ長時間のオクルージョンに直面すると、限界が生じる。この課題は、これらのモデルが訓練データセットを超えて汎化するのに苦労し、訓練データで様々なオクルージョンを捉えることが難しいために生じる。このような課題に対処するため、我々はSTRIDE(Single-video based TempoRally contInuous Occlusion-Robust 3D Pose Estimation)を提案する。STRIDEは、各映像に対して人物の動き事前分布を適合させる新しいテスト時間学習(TTT)アプローチである。このアプローチは、モデルのトレーニング中に遭遇しなかったオクルージョンを特に処理する。STRIDEを採用することで、一連のノイズの多い初期ポーズ推定値を、テスト時間中に正確で時間的に一貫性のあるポーズに改良することができ、従来の手法の限界を効果的に克服することができる。私たちのフレームワークはモデルに依存しないため柔軟性があり、ロバスト性と時間的一貫性を向上させるために、どのような市販の3Dポーズ推定手法も使用することができます。我々は、Occluded Human3.6M、Human3.6M、OCMotionのような難易度の高いデータセットでの包括的な実験を通して、STRIDEの有効性を検証する。そこでは、STRIDEは、既存の単一画像やビデオベースのポーズ推定モデルを凌駕するだけでなく、実質的なオクルージョンの処理に優れていることを示し、高速で、ロバストで、正確で、時間的に一貫性のある3Dポーズ推定を達成する。コードは https://github.com/take2rohit/stride で公開されています。

要約(オリジナル)

The capability to accurately estimate 3D human poses is crucial for diverse fields such as action recognition, gait recognition, and virtual/augmented reality. However, a persistent and significant challenge within this field is the accurate prediction of human poses under conditions of severe occlusion. Traditional image-based estimators struggle with heavy occlusions due to a lack of temporal context, resulting in inconsistent predictions. While video-based models benefit from processing temporal data, they encounter limitations when faced with prolonged occlusions that extend over multiple frames. This challenge arises because these models struggle to generalize beyond their training datasets, and the variety of occlusions is hard to capture in the training data. Addressing these challenges, we propose STRIDE (Single-video based TempoRally contInuous Occlusion-Robust 3D Pose Estimation), a novel Test-Time Training (TTT) approach to fit a human motion prior for each video. This approach specifically handles occlusions that were not encountered during the model’s training. By employing STRIDE, we can refine a sequence of noisy initial pose estimates into accurate, temporally coherent poses during test time, effectively overcoming the limitations of prior methods. Our framework demonstrates flexibility by being model-agnostic, allowing us to use any off-the-shelf 3D pose estimation method for improving robustness and temporal consistency. We validate STRIDE’s efficacy through comprehensive experiments on challenging datasets like Occluded Human3.6M, Human3.6M, and OCMotion, where it not only outperforms existing single-image and video-based pose estimation models but also showcases superior handling of substantial occlusions, achieving fast, robust, accurate, and temporally consistent 3D pose estimates. Code is made publicly available at https://github.com/take2rohit/stride

arxiv情報

著者 Rohit Lal,Saketh Bachu,Yash Garg,Arindam Dutta,Calvin-Khang Ta,Dripta S. Raychaudhuri,Hannah Dela Cruz,M. Salman Asif,Amit K. Roy-Chowdhury
発行日 2024-12-04 10:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク