A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose Estimation

要約

2Dのポーズシーケンスを3Dに持ち上げる3D人間のポーズ推定における支配的なパラダイムは、精度を向上させるために長期的な時間的手がかり(つまり、膨大な数のビデオフレームを使用)に大きく依存しており、性能の飽和、難解な計算、非因果的な問題を引き起こしている。これは、平易な2次元関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。この問題に対処するために、我々は簡単かつ強力な解決策を提案する。それは、既製の(事前に訓練された)2Dポーズ検出器によって生成される、容易に利用可能な中間視覚表現を活用することである。重要な観察は、ポーズ検出器が2Dジョイントのローカライズを学習する一方で、そのような表現(例えば、特徴マップ)は、バックボーンネットワークにおける領域操作のおかげで、ジョイント中心の空間コンテキストを暗黙的に符号化するということである。我々はContext-Aware PoseFormerというシンプルなベースラインを設計し、その有効性を示す。時間情報にアクセスすることなく、提案手法は、最大数百のビデオフレームを使用して、そのコンテキストにとらわれない対応物であるPoseFormerや他の最先端の手法を、速度と精度の両方に関して大幅に上回る。プロジェクトページ: https://qitaozhao.github.io/ContextAware-PoseFormer

要約(オリジナル)

The dominant paradigm in 3D human pose estimation that lifts a 2D pose sequence to 3D heavily relies on long-term temporal clues (i.e., using a daunting number of video frames) for improved accuracy, which incurs performance saturation, intractable computation and the non-causal problem. This can be attributed to their inherent inability to perceive spatial context as plain 2D joint coordinates carry no visual cues. To address this issue, we propose a straightforward yet powerful solution: leveraging the readily available intermediate visual representations produced by off-the-shelf (pre-trained) 2D pose detectors — no finetuning on the 3D task is even needed. The key observation is that, while the pose detector learns to localize 2D joints, such representations (e.g., feature maps) implicitly encode the joint-centric spatial context thanks to the regional operations in backbone networks. We design a simple baseline named Context-Aware PoseFormer to showcase its effectiveness. Without access to any temporal information, the proposed method significantly outperforms its context-agnostic counterpart, PoseFormer, and other state-of-the-art methods using up to hundreds of video frames regarding both speed and precision. Project page: https://qitaozhao.github.io/ContextAware-PoseFormer

arxiv情報

著者 Qitao Zhao,Ce Zheng,Mengyuan Liu,Chen Chen
発行日 2023-11-06 18:04:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク