SmartMocap: Joint Estimation of Human and Camera Motion using Uncalibrated RGB Cameras

要約

複数の RGB カメラからのマーカーレス ヒューマン モーション キャプチャ (モーション キャプチャ) は、広く研究されている問題です。
既存の方法では、キャリブレーションされたカメラが必要になるか、モーション キャプチャ システムの参照フレームとして機能する静的カメラに対してキャリブレーションを行う必要があります。
キャリブレーション手順は、面倒なプロセスであるすべてのキャプチャ セッションに対してアプリオリに実行する必要があり、カメラが意図的または誤って移動されるたびに再キャリブレーションが必要になります。
この論文では、外部的にキャリブレーションされていない複数の静的および移動するRGBカメラを使用するモーションキャプチャ方法を提案します。
私たちの方法の主要なコンポーネントは次のとおりです。
まず、カメラと被写体は自由に動くことができるため、カメラ座標で体を表す既存の方法とは異なり、体とカメラの動きの両方を表す共通の基準として地面を選択します。
次に、地面に対する人間の短いモーション シーケンス ($\sim$1sec) の確率分布を学習し、それを活用してカメラと人間のモーションを明確にします。
3 番目に、この分布を新しい多段階最適化アプローチのモーション プライアとして使用して、SMPL 人体モデルとカメラ ポーズを画像上の人体キーポイントに適合させます。
最後に、この方法が航空カメラからスマートフォンまで、さまざまなデータセットで機能することを示します。
また、静的カメラを使用した単眼の人間のモーション キャプチャのタスクで、最新技術と比較してより正確な結果が得られます。
私たちのコードは、https://github.com/robot-perception-group/SmartMocap で研究目的で利用できます。

要約(オリジナル)

Markerless human motion capture (mocap) from multiple RGB cameras is a widely studied problem. Existing methods either need calibrated cameras or calibrate them relative to a static camera, which acts as the reference frame for the mocap system. The calibration step has to be done a priori for every capture session, which is a tedious process, and re-calibration is required whenever cameras are intentionally or accidentally moved. In this paper, we propose a mocap method which uses multiple static and moving extrinsically uncalibrated RGB cameras. The key components of our method are as follows. First, since the cameras and the subject can move freely, we select the ground plane as a common reference to represent both the body and the camera motions unlike existing methods which represent bodies in the camera coordinate. Second, we learn a probability distribution of short human motion sequences ($\sim$1sec) relative to the ground plane and leverage it to disambiguate between the camera and human motion. Third, we use this distribution as a motion prior in a novel multi-stage optimization approach to fit the SMPL human body model and the camera poses to the human body keypoints on the images. Finally, we show that our method can work on a variety of datasets ranging from aerial cameras to smartphones. It also gives more accurate results compared to the state-of-the-art on the task of monocular human mocap with a static camera. Our code is available for research purposes on https://github.com/robot-perception-group/SmartMocap.

arxiv情報

著者 Nitin Saini,Chun-hao P. Huang,Michael J. Black,Aamir Ahmad
発行日 2022-09-28 08:21:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク