KinePose: A temporally optimized inverse kinematics technique for 6DOF human pose estimation with biomechanical constraints

要約

コンピュータビジョン/ディープラーニングベースの3D人間ポーズ推定方法は、画像やビデオから人間の関節を特定することを目的としています。
ポーズ表現は通常、3D関節の位置/並進自由度(3DOF)に制限されますが、多くの潜在的な生体力学的アプリケーションには、さらに3つの回転DOF(6DOF)が必要です。
位置DOFは、3D人間骨格モデルの関節回転DOFを分析的に解決するには不十分です。
したがって、生体力学的に情報を与えられた、被験者固有の運動学的チェーン全体の関節の向きを推測するために、時間的逆運動学(IK)最適化手法を提案します。
このために、位置ベースの3Dポーズ推定からリンク方向を規定します。
シーケンシャル最小二乗二次計画法は、フレームベースのポーズ項と時間項の両方を含む最小化問題を解くために使用されます。
ソリューションスペースは、ジョイントDOFと可動域(ROM)を使用して制限されます。
3Dポーズモーションシーケンスを生成して、一般的な精度と境界の場合の精度の両方についてIKアプローチを評価します。
私たちの時間的アルゴリズムは、関節あたりの平均角距離(MPJAS)エラーが低い6DOFポーズ推定を実現します(全体で3.7 {\ deg} /関節、下肢では1.6 {\ deg} /関節)。
フレームごとのIKを使用すると、肘や膝が曲がっている場合にエラーが少なくなりますが、手足が伸びている/まっすぐなフェーズのモーションシーケンスでは、ねじれ角があいまいになります。
時間的IKを使用すると、これらのポーズのあいまいさが軽減され、平均エラーが低くなります。

要約(オリジナル)

Computer vision/deep learning-based 3D human pose estimation methods aim to localize human joints from images and videos. Pose representation is normally limited to 3D joint positional/translational degrees of freedom (3DOFs), however, a further three rotational DOFs (6DOFs) are required for many potential biomechanical applications. Positional DOFs are insufficient to analytically solve for joint rotational DOFs in a 3D human skeletal model. Therefore, we propose a temporal inverse kinematics (IK) optimization technique to infer joint orientations throughout a biomechanically informed, and subject-specific kinematic chain. For this, we prescribe link directions from a position-based 3D pose estimate. Sequential least squares quadratic programming is used to solve a minimization problem that involves both frame-based pose terms, and a temporal term. The solution space is constrained using joint DOFs, and ranges of motion (ROMs). We generate 3D pose motion sequences to assess the IK approach both for general accuracy, and accuracy in boundary cases. Our temporal algorithm achieves 6DOF pose estimates with low Mean Per Joint Angular Separation (MPJAS) errors (3.7{\deg}/joint overall, & 1.6{\deg}/joint for lower limbs). With frame-by-frame IK we obtain low errors in the case of bent elbows and knees, however, motion sequences with phases of extended/straight limbs results in ambiguity in twist angle. With temporal IK, we reduce ambiguity for these poses, resulting in lower average errors.

arxiv情報

著者 Kevin Gildea,Clara Mercadal-Baudart,Richard Blythman,Aljosa Smolic,Ciaran Simms
発行日 2022-07-26 12:17:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, math.OC パーマリンク