Procedural Humans for Computer Vision


最近の研究では、自律走行から顔のランドマーク検出と再構成まで、コンピュータビジョンに使用する合成データの利点が示されています。合成データの利用には、プライバシーの保護や偏りの排除から、アノテーションの品質や実現性まで、様々な利点がある。人間中心の合成データを生成することは、リアルさとドメインギャップの点で特に難しいが、最近の研究では、合成顔データのみを用いて効果的な機械学習モデルを学習できることが示されている。我々は、Woodらのパイプラインを基に、コンピュータビジョンアプリケーションのための真実のアノテーションを持つ人間の合成画像を生成することで、これを全身に拡張できることを示す。 本報告では、顔と体のパラメトリックモデルを構築する方法、この体モデルに基づくリアルな人間の画像を生成するレンダリングパイプライン、体全体をカバーする高密度ランドマーク集合を回帰するDNNの学習方法、複数のビューから予測される高密度ランドマークに我々の体モデルを適合する方法について説明する。


Recent work has shown the benefits of synthetic data for use in computer vision, with applications ranging from autonomous driving to face landmark detection and reconstruction. There are a number of benefits of using synthetic data from privacy preservation and bias elimination to quality and feasibility of annotation. Generating human-centered synthetic data is a particular challenge in terms of realism and domain-gap, though recent work has shown that effective machine learning models can be trained using synthetic face data alone. We show that this can be extended to include the full body by building on the pipeline of Wood et al. to generate synthetic images of humans in their entirety, with ground-truth annotations for computer vision applications. In this report we describe how we construct a parametric model of the face and body, including articulated hands; our rendering pipeline to generate realistic images of humans based on this body model; an approach for training DNNs to regress a dense set of landmarks covering the entire body; and a method for fitting our body model to dense landmarks predicted from multiple views.


著者 Charlie Hewitt,Tadas Baltrušaitis,Erroll Wood,Lohit Petikam,Louis Florentin,Hanz Cuevas Velasquez
発行日 2023-01-03 15:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク