KinePose: A temporally optimized inverse kinematics technique for 6DOF human pose estimation with biomechanical constraints

要約

コンピュータビジョンやディープラーニングに基づく3次元人体姿勢推定は、画像や映像から人体の関節を特定することを目的とした手法です。通常、姿勢表現は3次元関節の位置・平行自由度(3DOFs)に限定されますが、多くの潜在的なバイオメカニカルアプリケーションでは、さらに3つの回転自由度(6DOFs)が必要とされます。3次元人体骨格モデルにおいて、関節回転自由度を解析的に解くには、位置自由度では不十分である。そこで、我々は、バイオメカニクス的な情報に基づき、被験者固有の運動連鎖を通して関節の向きを推定するための時間的逆運動学(IK)最適化手法を提案する。このために、我々は、位置ベースの3Dポーズ推定からリンク方向を規定する。逐次最小二乗法は、フレームベースのポーズ項と時間項の両方を含む最小化問題を解くために使用される。解の空間は、関節の自由度と可動域(ROM)を用いて制約される。我々は、3Dポーズ動作シーケンスを生成し、一般的な精度と境界例における精度の両方について、IKアプローチを評価する。我々の一時的アルゴリズムは、低いMPJAS(Mean Per Joint Angular Separation)誤差(全体で3.7{deg}/関節、下肢で1.6{deg}/関節)で6DOFポーズ推定を達成することができる。フレーム単位のIKでは、肘や膝が曲がっている場合は誤差が少ないが、手足が伸びた状態や伸びた状態の位相がある動作シーケンスでは、ねじれ角が曖昧になることがわかった。しかし、手足を伸ばした状態や伸ばした状態での動作では、ねじれ角が曖昧になり、平均誤差が小さくなることがわかった。

要約(オリジナル)

Computer vision/deep learning-based 3D human pose estimation methods aim to localize human joints from images and videos. Pose representation is normally limited to 3D joint positional/translational degrees of freedom (3DOFs), however, a further three rotational DOFs (6DOFs) are required for many potential biomechanical applications. Positional DOFs are insufficient to analytically solve for joint rotational DOFs in a 3D human skeletal model. Therefore, we propose a temporal inverse kinematics (IK) optimization technique to infer joint orientations throughout a biomechanically informed, and subject-specific kinematic chain. For this, we prescribe link directions from a position-based 3D pose estimate. Sequential least squares quadratic programming is used to solve a minimization problem that involves both frame-based pose terms, and a temporal term. The solution space is constrained using joint DOFs, and ranges of motion (ROMs). We generate 3D pose motion sequences to assess the IK approach both for general accuracy, and accuracy in boundary cases. Our temporal algorithm achieves 6DOF pose estimates with low Mean Per Joint Angular Separation (MPJAS) errors (3.7{\deg}/joint overall, & 1.6{\deg}/joint for lower limbs). With frame-by-frame IK we obtain low errors in the case of bent elbows and knees, however, motion sequences with phases of extended/straight limbs results in ambiguity in twist angle. With temporal IK, we reduce ambiguity for these poses, resulting in lower average errors.

arxiv情報

著者 Kevin Gildea,Clara Mercadal-Baudart,Richard Blythman,Aljosa Smolic,Ciaran Simms
発行日 2022-09-06 17:50:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, math.OC パーマリンク