Attention-Propagation Network for Egocentric Heatmap to 3D Pose Lifting

要約

我々は、高精度ステレオ自己中心 3D ポーズ推定のためのヒートマップから 3D ポーズリフティング手法である EgoTAP を紹介します。
自己中心的なカメラ ビューでは、深刻な自己閉塞と視界外の手足により、正確な姿勢推定が困難な問題になります。
この課題に対処するために、従来の方法では、ジョイント ヒートマップによる身体ポーズの確率的 2D 表現が採用されていますが、ヒートマップから 3D ポーズへの変換は依然として不正確なプロセスのままです。
我々は、Grid ViT Encoder と Propagation Network から構成される新しい Heatmap-to-3D リフティング手法を提案します。
Grid ViT Encoder は、セルフ アテンションを使用してジョイント ヒートマップを効果的な特徴埋め込みに要約します。
次に、伝播ネットワークは骨格情報を利用して 3D 姿勢を推定し、不明瞭な関節の位置をより正確に推定します。
私たちの方法は、MPJPE メトリクスの誤差が 23.9\% 減少することによって、定性的および定量的に以前の最先端の方法を大幅に上回っています。
私たちのソースコードは GitHub で入手できます。

要約(オリジナル)

We present EgoTAP, a heatmap-to-3D pose lifting method for highly accurate stereo egocentric 3D pose estimation. Severe self-occlusion and out-of-view limbs in egocentric camera views make accurate pose estimation a challenging problem. To address the challenge, prior methods employ joint heatmaps-probabilistic 2D representations of the body pose, but heatmap-to-3D pose conversion still remains an inaccurate process. We propose a novel heatmap-to-3D lifting method composed of the Grid ViT Encoder and the Propagation Network. The Grid ViT Encoder summarizes joint heatmaps into effective feature embedding using self-attention. Then, the Propagation Network estimates the 3D pose by utilizing skeletal information to better estimate the position of obscure joints. Our method significantly outperforms the previous state-of-the-art qualitatively and quantitatively demonstrated by a 23.9\% reduction of error in an MPJPE metric. Our source code is available in GitHub.

arxiv情報

著者 Taeho Kang,Youngki Lee
発行日 2024-02-28 13:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク