要約
単眼ビデオからのヒューマン モーション キャプチャは、近年大幅な進歩を遂げています。
ただし、最新のアプローチでは、一時的なアーティファクトが生成されることがよくあります。
ぎくしゃくした動きや、スムーズで物理的に妥当な動きを達成するのに苦労する形で発生します。
内部力と外部トルクの形で物理を明示的に統合することは、これらのアーチファクトを軽減するのに役立ちます。
現在の最先端のアプローチでは、入力運動学、つまり事前定義されたスケルトンの関節角度を再シミュレーションするために、自動 PD コントローラーを利用してトルクと反力を予測します。
ただし、物理モデルが不完全であるため、これらの方法では多くの場合、良好なパフォーマンスを達成するために、仮定の単純化と入力運動学の広範な前処理が必要になります。
この目的を達成するために、ニューラル カルマン フィルタリング アプローチにヒントを得て、オンライン設定で物理モデルと運動学観察を選択的に組み込む新しい方法を提案します。
内部関節トルクと外部反力を予測するためのメタ PD コントローラーとして制御ループを開発し、その後、物理ベースの運動シミュレーションを実行します。
リカレント ニューラル ネットワークは、運動学入力とシミュレートされた動きのバランスを注意深く調整するカルマン フィルターを実現するために導入されており、その結果、最適な状態のダイナミクス予測が得られます。
このフィルタリングのステップは、それぞれの入力モーションの欠点のバランスをとるのに役立つオンライン監視を提供するために重要であり、したがって、正確なグローバル モーションの軌跡をキャプチャするだけでなく、物理的に妥当な人間のポーズを生成するためにも重要であることを示します。
提案されたアプローチは、物理ベースの人間の姿勢推定タスクに優れており、最先端技術と比較して、予測ダイナミクスの物理的な妥当性を実証します。
コードは https://github.com/cuongle1206/OSDCap で入手できます。
要約(オリジナル)
Human motion capture from monocular videos has made significant progress in recent years. However, modern approaches often produce temporal artifacts, e.g. in form of jittery motion and struggle to achieve smooth and physically plausible motions. Explicitly integrating physics, in form of internal forces and exterior torques, helps alleviating these artifacts. Current state-of-the-art approaches make use of an automatic PD controller to predict torques and reaction forces in order to re-simulate the input kinematics, i.e. the joint angles of a predefined skeleton. However, due to imperfect physical models, these methods often require simplifying assumptions and extensive preprocessing of the input kinematics to achieve good performance. To this end, we propose a novel method to selectively incorporate the physics models with the kinematics observations in an online setting, inspired by a neural Kalman-filtering approach. We develop a control loop as a meta-PD controller to predict internal joint torques and external reaction forces, followed by a physics-based motion simulation. A recurrent neural network is introduced to realize a Kalman filter that attentively balances the kinematics input and simulated motion, resulting in an optimal-state dynamics prediction. We show that this filtering step is crucial to provide an online supervision that helps balancing the shortcoming of the respective input motions, thus being important for not only capturing accurate global motion trajectories but also producing physically plausible human poses. The proposed approach excels in the physics-based human pose estimation task and demonstrates the physical plausibility of the predictive dynamics, compared to state of the art. The code is available on https://github.com/cuongle1206/OSDCap
arxiv情報
著者 | Cuong Le,Viktor Johansson,Manon Kok,Bastian Wandt |
発行日 | 2024-12-24 14:10:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google