BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion

要約

私たちは、合成データのみで訓練されたニューラル ネットワークが、実際の画像からの 3D 人間の姿勢と形状 (HPS) 推定の問題に関して最先端の精度を達成することを初めて示しました。
これまでの合成データセットは小さかったり、非現実的であったり、現実的な服装に欠けていたりしました。
十分なリアリズムを達成することは簡単ではありません。動いている全身に対してこれを実現する方法を示します。
具体的には、BEDLAM データセットには、SMPL-X 形式のグラウンドトゥルース 3D ボディを含む単眼 RGB ビデオが含まれています。
それには、さまざまな体型、動き、肌の色、髪、服装が含まれます。
市販の衣服物理シミュレーションを使用して、移動体上の衣服をリアルにシミュレートします。
さまざまな照明とカメラの動きを使用して、さまざまな人数の人々をリアルなシーンでレンダリングします。
次に、BEDLAM を使用してさまざまな HPS リグレッサーをトレーニングし、合成データを使用したトレーニングにもかかわらず、実画像ベンチマークで最先端の精度を達成します。
BEDLAM を使用して、精度にとってどのようなモデル設計の選択が重要であるかについて洞察を得ることができます。
優れた合成トレーニング データを使用すると、HMR のような基本的な手法が現在の SOTA 手法 (CLIFF) の精度に近づくことがわかります。
BEDLAM はさまざまなタスクに役立ち、すべての画像、グラウンド トゥルース ボディ、3D 衣服、サポート コードなどを研究目的に利用できます。
さらに、合成データ生成パイプラインに関する詳細情報を提供し、他のユーザーが独自のデータセットを生成できるようにします。
プロジェクト ページを参照してください: https://bedlam.is.tue.mpg.de/。

要約(オリジナル)

We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked realistic clothing. Achieving sufficient realism is non-trivial and we show how to do this for full bodies in motion. Specifically, our BEDLAM dataset contains monocular RGB videos with ground-truth 3D bodies in SMPL-X format. It includes a diversity of body shapes, motions, skin tones, hair, and clothing. The clothing is realistically simulated on the moving bodies using commercial clothing physics simulation. We render varying numbers of people in realistic scenes with varied lighting and camera motions. We then train various HPS regressors using BEDLAM and achieve state-of-the-art accuracy on real-image benchmarks despite training with synthetic data. We use BEDLAM to gain insights into what model design choices are important for accuracy. With good synthetic training data, we find that a basic method like HMR approaches the accuracy of the current SOTA method (CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth bodies, 3D clothing, support code, and more are available for research purposes. Additionally, we provide detailed information about our synthetic data generation pipeline, enabling others to generate their own datasets. See the project page: https://bedlam.is.tue.mpg.de/.

arxiv情報

著者 Michael J. Black,Priyanka Patel,Joachim Tesch,Jinlong Yang
発行日 2023-06-29 13:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク