要約
人体姿勢推定は、複雑な構造化データ列のモデリングタスクである。既存の手法の多くは、人体関節のペア相互作用のみを考慮したモデル学習を行っている。このため、$textit{joints overlapping}$や$textit{fast-changing}$のような難しいケースでは、ペアワイズ関係がポーズ推定におけるきめ細かい人体プリオールを利用できないため、残念ながら3Dポーズ推定に失敗してしまう。そこで、我々は、高次の骨と関節の関連性をコヒーレントに利用する$textit{High-order}$ $textit{Directed}$ $textit{Transformer}$(HDFormer)を用いて、3次元姿勢推定フレームワークを刷新し、姿勢推定の性能を向上させる。具体的には、HDFormerは自己注意と高次注意の両方を採用し、多次注意モジュールを構築して、1次の$’ \textit{joint$leftrightarrow$joint}’$ を含む情報の流れの相互作用を行う。また、高次の$’Hyperbone$leftrightarrow$joint}’$関係(Hyperboneはジョイントセットとして定義)を含む多次の注意モジュールを構築し、変化の激しいオクルージョン状況での予測困難性を補償する。さらに、最新のCNN技術を適用して、HDFormerを高速化するために、変換器ベースのアーキテクチャをアップグレードし、有効性と効率の間の好ましいトレードオフを達成する。我々は、Human3.6MとMPI-INF-3DHPのデータセットにおいて、我々のモデルを他のSOTAモデルと比較する。その結果、提案するHDFormerは、現在のSOTAと比較して、$textbf{1/10}$個のパラメータと非常に低い計算コストで優れた性能を達成することが実証された。さらに、HDFormerは実世界の様々な種類のアプリケーションに適用することができ、リアルタイムで正確な3次元姿勢推定を可能にします。ソースコードは、https://github.com/hyer/HDFormer。
要約(オリジナル)
Human pose estimation is a complicated structured data sequence modeling task. Most existing methods only consider the pair-wise interaction of human body joints in model learning. Unfortunately, this causes 3D pose estimation to fail in difficult cases such as $\textit{joints overlapping}$, and pose $\textit{fast-changing}$, as pair-wise relations cannot exploit fine-grained human body priors in pose estimation. To this end, we revamped the 3D pose estimation framework with a $\textit{High-order}$ $\textit{Directed}$ $\textit{Transformer}$ (HDFormer), which coherently exploits the high-order bones and joints relevances to boost the performance of pose estimation. Specifically, HDFormer adopts both self-attention and high-order attention schemes to build up a multi-order attention module to perform the information flow interaction including the first-order $’\textit{joint$\leftrightarrow$joint}’$, second-order $’\textit{bone$\leftrightarrow$joint}’$ as well as high-order $’\textit{hyperbone$\leftrightarrow$joint}’$ relationships (hyperbone is defined as a joint set), compensating the hard cases prediction in fast-changing and heavy occlusion scenarios. Moreover, modernized CNN techniques are applied to upgrade the transformer-based architecture to speed up the HDFormer, achieving a favorable trade-off between effectiveness and efficiency. We compare our model with other SOTA models on the datasets Human3.6M and MPI-INF-3DHP. The results demonstrate that the proposed HDFormer achieves superior performance with only $\textbf{1/10}$ parameters and much lower computational cost compared to the current SOTAs. Moreover, HDFormer can be applied to various types of real-world applications, enabling real-time and accurate 3D pose estimation. The source code is in https://github.com/hyer/HDFormer.
arxiv情報
著者 | Hanyuan Chen,Jun-Yan He,Wangmeng Xiang,Wei Liu,Zhi-Qi Cheng,Hanbing Liu,Bin Luo,Yifeng Geng,Xuansong Xie |
発行日 | 2023-02-03 16:00:48+00:00 |
arxivサイト | arxiv_id(pdf) |