要約
単眼ビデオからの人間のモーションキャプチャは、近年大きな進歩を遂げています。
ただし、現代のアプローチはしばしば時間的アーティファクトを生み出します。
不安定な動きの形で、スムーズで肉体的にもっともらしい動きを達成するために苦労しています。
内部力と外部トルクの形で物理学を明示的に統合することは、これらのアーティファクトを緩和するのに役立ちます。
現在の最先端のアプローチでは、自動PDコントローラーを使用して、入力運動学、つまり事前に定義された骨格の関節角を再シミュレートするために、トルクと反応力を予測します。
ただし、不完全な物理モデルのため、これらの方法は多くの場合、仮定を単純化し、入力運動学の広範な前処理を必要として、優れたパフォーマンスを実現する必要があります。
この目的のために、神経カルマンフィルタリングアプローチに触発されたオンライン設定で、物理学モデルを運動学の観測と選択的に組み込む新しい方法を提案します。
内部関節トルクと外部反応力を予測するためのメタ-PDコントローラーとしてコントロールループを開発し、その後に物理ベースのモーションシミュレーションが続きます。
再発性ニューラルネットワークが導入され、運動学の入力とシミュレートされた動きのバランスをとるカルマンフィルターを実現し、最適な状態のダイナミクス予測をもたらします。
このフィルタリングステップが、それぞれの入力運動の欠点のバランスをとるのに役立つオンライン監督を提供するために重要であり、したがって、正確なグローバルな動きの軌跡をキャプチャするだけでなく、身体的にもっともらしい人間のポーズを生成するためにも重要であることを示します。
提案されたアプローチは、物理ベースの人間のポーズ推定タスクに優れており、最先端と比較して、予測力学の物理的妥当性を示しています。
このコードは、https://github.com/cuongle1206/osdcapで入手できます
要約(オリジナル)
Human motion capture from monocular videos has made significant progress in recent years. However, modern approaches often produce temporal artifacts, e.g. in form of jittery motion and struggle to achieve smooth and physically plausible motions. Explicitly integrating physics, in form of internal forces and exterior torques, helps alleviating these artifacts. Current state-of-the-art approaches make use of an automatic PD controller to predict torques and reaction forces in order to re-simulate the input kinematics, i.e. the joint angles of a predefined skeleton. However, due to imperfect physical models, these methods often require simplifying assumptions and extensive preprocessing of the input kinematics to achieve good performance. To this end, we propose a novel method to selectively incorporate the physics models with the kinematics observations in an online setting, inspired by a neural Kalman-filtering approach. We develop a control loop as a meta-PD controller to predict internal joint torques and external reaction forces, followed by a physics-based motion simulation. A recurrent neural network is introduced to realize a Kalman filter that attentively balances the kinematics input and simulated motion, resulting in an optimal-state dynamics prediction. We show that this filtering step is crucial to provide an online supervision that helps balancing the shortcoming of the respective input motions, thus being important for not only capturing accurate global motion trajectories but also producing physically plausible human poses. The proposed approach excels in the physics-based human pose estimation task and demonstrates the physical plausibility of the predictive dynamics, compared to state of the art. The code is available on https://github.com/cuongle1206/OSDCap
arxiv情報
著者 | Cuong Le,Viktor Johansson,Manon Kok,Bastian Wandt |
発行日 | 2025-05-14 17:22:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google