要約
野生のビデオから地球規模の人間の軌跡を再構築する方法を提案します。
私たちの最適化方法は、カメラと人間の動きを切り離し、同じ世界座標フレームに人々を配置できるようにします。
ほとんどの既存の方法は、カメラの動きをモデル化していません。
背景ピクセルに依存して 3D の人間の動きを推測する方法では、通常、完全なシーンの再構成が必要になりますが、これは野生のビデオでは不可能なことがよくあります。
ただし、既存の SLAM システムが正確なシーン再構成を復元できない場合でも、背景ピクセルの動きはカメラの動きを制限するのに十分な信号を提供します。
相対的なカメラ推定値とデータ駆動型の人間の動きの事前分布により、シーン スケールのあいまいさを解決し、グローバルな人間の軌跡を回復できることを示します。
私たちの方法は、PoseTrack などの挑戦的な野生のビデオで人々のグローバルな 3D 軌跡を確実に復元します。
3D 人間データセット Egobody の既存の方法に対する改善を定量化します。
さらに、復元されたカメラ スケールにより、共有座標フレーム内の複数の人物の動きを推論できることを示します。これにより、PoseTrack でのダウンストリーム トラッキングのパフォーマンスが向上します。
コードとビデオの結果は、https://vye16.github.io/slahmr にあります。
要約(オリジナル)
We propose a method to reconstruct global human trajectories from videos in the wild. Our optimization method decouples the camera and human motion, which allows us to place people in the same world coordinate frame. Most existing methods do not model the camera motion; methods that rely on the background pixels to infer 3D human motion usually require a full scene reconstruction, which is often not possible for in-the-wild videos. However, even when existing SLAM systems cannot recover accurate scene reconstructions, the background pixel motion still provides enough signal to constrain the camera motion. We show that relative camera estimates along with data-driven human motion priors can resolve the scene scale ambiguity and recover global human trajectories. Our method robustly recovers the global 3D trajectories of people in challenging in-the-wild videos, such as PoseTrack. We quantify our improvement over existing methods on 3D human dataset Egobody. We further demonstrate that our recovered camera scale allows us to reason about motion of multiple people in a shared coordinate frame, which improves performance of downstream tracking in PoseTrack. Code and video results can be found at https://vye16.github.io/slahmr.
arxiv情報
著者 | Vickie Ye,Georgios Pavlakos,Jitendra Malik,Angjoo Kanazawa |
発行日 | 2023-02-24 18:59:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google