NeMo: 3D Neural Motion Fields from Multiple Video Instances of the Same Action

要約

人間の 3D モーションを再構築するタスクには、幅広い用途があります。
ゴールド スタンダードのモーション キャプチャ (MoCap) システムは正確ですが、コスト、ハードウェア、およびスペースの制約により、一般の人がアクセスすることはできません。
対照的に、単眼ヒューマン メッシュ リカバリ (HMR) メソッドは、単一ビューのビデオを入力として受け取るため、MoCap よりもはるかにアクセスしやすくなっています。
マルチビュー モーション キャプチャ システムを単眼 HMR 方式に置き換えることで、正確な 3D モーションを収集するための現在の障壁が取り除かれ、モーション分析やモーション駆動型アニメーションなどのエキサイティングなアプリケーションが一般に公開されます。
ただし、トレーニングに使用される既存の MoCap データセットにない挑戦的で動的なモーションがビデオに含まれている場合、既存の HMR メソッドのパフォーマンスは低下します。
前述のアプリケーションでの 3D モーション リカバリでは、ダイナミック モーションがターゲットになることが多いため、これにより魅力が低下します。
私たちの研究は、同じアクションの複数のビデオインスタンスで共有される情報を活用することにより、単眼 HMR とマルチビュー MoCap システムの間のギャップを埋めることを目的としています。
Neural Motion (NeMo) フィールドを紹介します。
同じアクションの一連のビデオ全体で、基礎となる 3D モーションを表すように最適化されています。
経験的に、NeMo は Penn Action データセットのビデオを使用してスポーツの 3D モーションを回復できることを示しています。NeMo は 2D キーポイント検出に関して既存の HMR メソッドよりも優れています。
3D メトリクスを使用して NeMo をさらに検証するために、Penn Action のアクションを模倣する小さな MoCap データセットを収集し、さまざまなベースラインと比較して NeMo がより優れた 3D 再構築を達成することを示しました。

要約(オリジナル)

The task of reconstructing 3D human motion has wideranging applications. The gold standard Motion capture (MoCap) systems are accurate but inaccessible to the general public due to their cost, hardware and space constraints. In contrast, monocular human mesh recovery (HMR) methods are much more accessible than MoCap as they take single-view videos as inputs. Replacing the multi-view Mo- Cap systems with a monocular HMR method would break the current barriers to collecting accurate 3D motion thus making exciting applications like motion analysis and motiondriven animation accessible to the general public. However, performance of existing HMR methods degrade when the video contains challenging and dynamic motion that is not in existing MoCap datasets used for training. This reduces its appeal as dynamic motion is frequently the target in 3D motion recovery in the aforementioned applications. Our study aims to bridge the gap between monocular HMR and multi-view MoCap systems by leveraging information shared across multiple video instances of the same action. We introduce the Neural Motion (NeMo) field. It is optimized to represent the underlying 3D motions across a set of videos of the same action. Empirically, we show that NeMo can recover 3D motion in sports using videos from the Penn Action dataset, where NeMo outperforms existing HMR methods in terms of 2D keypoint detection. To further validate NeMo using 3D metrics, we collected a small MoCap dataset mimicking actions in Penn Action,and show that NeMo achieves better 3D reconstruction compared to various baselines.

arxiv情報

著者 Kuan-Chieh Wang,Zhenzhen Weng,Maria Xenochristou,Joao Pedro Araujo,Jeffrey Gu,C. Karen Liu,Serena Yeung
発行日 2022-12-28 01:40:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク