WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion

要約

ビデオからの 3D 人間の動きの推定は急速に進歩していますが、現在の方法には依然としていくつかの重要な制限があります。
まず、ほとんどの方法はカメラ座標で人間を推定します。
第 2 に、グローバル座標で人間を推定する従来の研究では、多くの場合、平らな地面を想定しており、足の滑りが発生します。
第三に、最も正確な方法は計算コストのかかる最適化パイプラインに依存しており、その使用はオフライン アプリケーションに限定されます。
最後に、既存のビデオベースの手法は、単一フレーム手法に比べて驚くほど精度が低くなります。
私たちは、WHAM (World-grounded Humans with Accurate Motion) によってこれらの制限に対処します。WHAM は、ビデオから世界座標系での 3D 人間の動きを正確かつ効率的に再構築します。
WHAM は、モーション キャプチャ データを使用して 2D キーポイント シーケンスを 3D に引き上げることを学習し、これをビデオ機能と融合させ、モーション コンテキストと視覚情報を統合します。
WHAM は、SLAM 法から推定されたカメラの角速度と人間の動きを利用して、物体の全体的な軌道を推定します。
これを接触を意識した軌道改良手法と組み合わせて、WHAM が階段を上るなどのさまざまな状況で人間の動きをキャプチャできるようにします。
WHAM は、複数の実際のベンチマークにわたって、既存のすべての 3D ヒューマン モーション回復手法よりも優れたパフォーマンスを発揮します。
コードは研究目的で http://wham.is.tue.mpg.de/ から入手できます。

要約(オリジナル)

The estimation of 3D human motion from video has progressed rapidly but current methods still have several key limitations. First, most methods estimate the human in camera coordinates. Second, prior work on estimating humans in global coordinates often assumes a flat ground plane and produces foot sliding. Third, the most accurate methods rely on computationally expensive optimization pipelines, limiting their use to offline applications. Finally, existing video-based methods are surprisingly less accurate than single-frame methods. We address these limitations with WHAM (World-grounded Humans with Accurate Motion), which accurately and efficiently reconstructs 3D human motion in a global coordinate system from video. WHAM learns to lift 2D keypoint sequences to 3D using motion capture data and fuses this with video features, integrating motion context and visual information. WHAM exploits camera angular velocity estimated from a SLAM method together with human motion to estimate the body’s global trajectory. We combine this with a contact-aware trajectory refinement method that lets WHAM capture human motion in diverse conditions, such as climbing stairs. WHAM outperforms all existing 3D human motion recovery methods across multiple in-the-wild benchmarks. Code will be available for research purposes at http://wham.is.tue.mpg.de/

arxiv情報

著者 Soyong Shin,Juyong Kim,Eni Halilaj,Michael J. Black
発行日 2023-12-12 18:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク