要約
3D 人間の姿勢推定を予測するための既存の体積測定法は正確ですが、計算コストが高く、単一のタイムステップ予測に最適化されています。
TEMPO は、ロバストな時空間表現を学習し、人間の姿勢を追跡および予測しながら姿勢の精度を向上させる、効率的なマルチビュー姿勢推定モデルです。
人物ごとの 2D ポーズ特徴を繰り返し計算し、空間情報と時間情報の両方を 1 つの表現に融合することで、最先端技術と比較して計算量を大幅に削減します。
そうすることで、私たちのモデルは時空間コンテキストを使用して、効率を犠牲にすることなく、より正確に人間のポーズを予測することができます。
さらに、この表現を使用して人間のポーズを経時的に追跡し、将来のポーズを予測します。
最後に、シーン固有の微調整を行わずにモデルがデータセット全体で一般化できることを示します。
TEMPO は、困難な CMU Panoptic Studio データセットで TesseTrack と比較して、10$\%$ 優れた MPJPE と 33$\times$ の FPS 向上を達成しました。
要約(オリジナル)
Existing volumetric methods for predicting 3D human pose estimation are accurate, but computationally expensive and optimized for single time-step prediction. We present TEMPO, an efficient multi-view pose estimation model that learns a robust spatiotemporal representation, improving pose accuracy while also tracking and forecasting human pose. We significantly reduce computation compared to the state-of-the-art by recurrently computing per-person 2D pose features, fusing both spatial and temporal information into a single representation. In doing so, our model is able to use spatiotemporal context to predict more accurate human poses without sacrificing efficiency. We further use this representation to track human poses over time as well as predict future poses. Finally, we demonstrate that our model is able to generalize across datasets without scene-specific fine-tuning. TEMPO achieves 10$\%$ better MPJPE with a 33$\times$ improvement in FPS compared to TesseTrack on the challenging CMU Panoptic Studio dataset.
arxiv情報
著者 | Rohan Choudhury,Kris Kitani,Laszlo A. Jeni |
発行日 | 2023-09-14 17:56:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google