要約
現実世界における人間の外見の多様性を引き出すことを目的とした、新しい合成人間データセットである Synthetic Playground (SynPlay) を紹介します。
これまでの作品ではまだ見られなかった多様性のレベルを達成するために、私たちは 2 つの要素に焦点を当てています。i) リアルな人間の動きとポーズ、ii) 人間のインスタンスに対する複数のカメラの視点。
まず、ゲーム エンジンとそのライブラリが提供する基本モーションを使用して、仮想プレーヤーがゲーム ルールに従いながら、制約の少ない自然な動きを実行できるゲームを作成します (つまり、詳細ガイドに基づく設計ではなく、ルールに基づくモーション設計)。
次に、モーション キャプチャ デバイスでキャプチャされた実際の人間の動きで基本動作を拡張します。
ゲーム内のさまざまな人間の外観を複数の視点からレンダリングするために、地上ビューと空撮ビューを網羅する 7 台の仮想カメラを使用し、シーンの空撮対地上、動的対静的属性を豊富にキャプチャします。
広範で慎重に設計された実験を通じて、モデルのトレーニングに SynPlay を使用すると、人間の検出とセグメンテーションの精度が既存の合成データセットよりも向上することがわかりました。
SynPlay のメリットは、少数ショットやクロスドメイン学習タスクなど、データが不足している状況のタスクではさらに大きくなります。
これらの結果は、SynPlay が、モデルの事前トレーニングに適した複雑な人間の外観とポーズの豊富な属性を備えた必須のデータセットとして使用できることを明確に示しています。
73,000 を超える画像と 650 万の人間のインスタンスで構成される SynPlay データセットは、https://synplaydataset.github.io/ からダウンロードできます。
要約(オリジナル)
We introduce Synthetic Playground (SynPlay), a new synthetic human dataset that aims to bring out the diversity of human appearance in the real world. We focus on two factors to achieve a level of diversity that has not yet been seen in previous works: i) realistic human motions and poses and ii) multiple camera viewpoints towards human instances. We first use a game engine and its library-provided elementary motions to create games where virtual players can take less-constrained and natural movements while following the game rules (i.e., rule-guided motion design as opposed to detail-guided design). We then augment the elementary motions with real human motions captured with a motion capture device. To render various human appearances in the games from multiple viewpoints, we use seven virtual cameras encompassing the ground and aerial views, capturing abundant aerial-vs-ground and dynamic-vs-static attributes of the scene. Through extensive and carefully-designed experiments, we show that using SynPlay in model training leads to enhanced accuracy over existing synthetic datasets for human detection and segmentation. The benefit of SynPlay becomes even greater for tasks in the data-scarce regime, such as few-shot and cross-domain learning tasks. These results clearly demonstrate that SynPlay can be used as an essential dataset with rich attributes of complex human appearances and poses suitable for model pretraining. SynPlay dataset comprising over 73k images and 6.5M human instances, is available for download at https://synplaydataset.github.io/.
arxiv情報
著者 | Jinsub Yim,Hyungtae Lee,Sungmin Eum,Yi-Ting Shen,Yan Zhang,Heesung Kwon,Shuvra S. Bhattacharyya |
発行日 | 2024-08-21 17:58:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google