RoHM: Robust Human Motion Reconstruction via Diffusion

要約

我々は、ノイズやオクルージョンが存在する単眼RGB(-D)ビデオからロバストな3D人間の動きを再構成するアプローチであるRoHMを提案します。
これまでのアプローチのほとんどは、ニューラル ネットワークをトレーニングして 3D でモーションを直接回帰するか、データ駆動型のモーション事前分布を学習してテスト時の最適化と組み合わせます。
前者は全体的に一貫した動きを回復せず、オクルージョンの下では失敗します。
後者は時間がかかり、極小値になりやすく、手動調整が必要です。
これらの欠点を克服するために、拡散モデルの反復的でノイズ除去の性質を利用します。
RoHM は、ノイズが多く遮蔽された入力データを条件として、一貫したグローバル座標で完全でもっともらしい動きを再構築する、新しい拡散ベースの動きモデルです。
問題の複雑さを考慮すると、異なる解決空間 (ローカルおよびグローバル モーション) で異なるタスク (ノイズ除去と充填) に対処する必要があるため、問題を 2 つのサブタスクに分解し、グローバル トラジェクトリ用とグローバル トラジェクトリ用の 2 つのモデルを学習します。
ローカルモーション用。
2 つの間の相関関係を捉えるために、新しい条件付けモジュールを導入し、それを反復推論スキームと組み合わせます。
私たちは RoHM を、動きの再構築やノイズ除去から空間的および時間的な埋め込みまで、さまざまなタスクに適用します。
3 つの人気のあるデータセットに対する広範な実験により、私たちの方法が最先端のアプローチより質的および量的に優れており、テスト時間も高速であることが示されています。
コードは https://sanweiliti.github.io/ROHM/ROHM.html で入手できます。

要約(オリジナル)

We propose RoHM, an approach for robust 3D human motion reconstruction from monocular RGB(-D) videos in the presence of noise and occlusions. Most previous approaches either train neural networks to directly regress motion in 3D or learn data-driven motion priors and combine them with optimization at test time. The former do not recover globally coherent motion and fail under occlusions; the latter are time-consuming, prone to local minima, and require manual tuning. To overcome these shortcomings, we exploit the iterative, denoising nature of diffusion models. RoHM is a novel diffusion-based motion model that, conditioned on noisy and occluded input data, reconstructs complete, plausible motions in consistent global coordinates. Given the complexity of the problem — requiring one to address different tasks (denoising and infilling) in different solution spaces (local and global motion) — we decompose it into two sub-tasks and learn two models, one for global trajectory and one for local motion. To capture the correlations between the two, we then introduce a novel conditioning module, combining it with an iterative inference scheme. We apply RoHM to a variety of tasks — from motion reconstruction and denoising to spatial and temporal infilling. Extensive experiments on three popular datasets show that our method outperforms state-of-the-art approaches qualitatively and quantitatively, while being faster at test time. The code is available at https://sanweiliti.github.io/ROHM/ROHM.html.

arxiv情報

著者 Siwei Zhang,Bharat Lal Bhatnagar,Yuanlu Xu,Alexander Winkler,Petr Kadlecek,Siyu Tang,Federica Bogo
発行日 2024-04-15 12:27:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク