Toward Human Understanding with Controllable Synthesis

要約

堅牢な 3D 人間の姿勢と形状 (HPS) 推定を実行するトレーニング方法には、正確なグランド トゥルースを備えた多様なトレーニング画像が必要です。
BEDLAM は、このようなデータを生成する従来の手続き型グラフィックスの可能性を実証していますが、トレーニング画像は明らかに合成です。
対照的に、生成画像モデルは非常に現実的な画像を生成しますが、グラウンドトゥルースはありません。
これらの方法をまとめるのは簡単そうに見えます。制御信号としてボディのグラウンド トゥルースを持つ生成モデルを使用します。
ただし、生成された画像が現実的であればあるほど、グラウンド トゥルースからの逸脱が大きくなり、トレーニングや評価には不適切になることがわかりました。
衣服や顔の表情などの現実的な詳細を強化すると、グラウンド トゥルースからのわずかながらも重大な逸脱が生じ、トレーニング モデルに誤解を招く可能性があります。
生成された画像を使用してトレーニングした場合、このずれによって HPS ネットワークの精度が低下することが経験的に検証されています。
これに対処するために、画像のリアリズムと正確なグラウンド トゥルースのバランスを効果的にとれる制御可能な合成方法を設計します。
これを使用して Generative BEDLAM (Gen-B) データセットを作成します。これにより、グランド トゥルースの精度を維持しながら、既存の合成 BEDLAM データセットのリアリズムが向上します。
私たちは、さまざまなノイズ調整戦略を使用して広範な実験を実行し、視覚的なリアリズムと HPS 精度の間のトレードオフを評価します。
我々は、生成画像モデルを従来のグラフィックス手法で制御して、HPS 手法の精度を向上させるトレーニング データを生成できることを初めて示しました。

要約(オリジナル)

Training methods to perform robust 3D human pose and shape (HPS) estimation requires diverse training images with accurate ground truth. While BEDLAM demonstrates the potential of traditional procedural graphics to generate such data, the training images are clearly synthetic. In contrast, generative image models produce highly realistic images but without ground truth. Putting these methods together seems straightforward: use a generative model with the body ground truth as controlling signal. However, we find that, the more realistic the generated images, the more they deviate from the ground truth, making them inappropriate for training and evaluation. Enhancements of realistic details, such as clothing and facial expressions, can lead to subtle yet significant deviations from the ground truth, potentially misleading training models. We empirically verify that this misalignment causes the accuracy of HPS networks to decline when trained with generated images. To address this, we design a controllable synthesis method that effectively balances image realism with precise ground truth. We use this to create the Generative BEDLAM (Gen-B) dataset, which improves the realism of the existing synthetic BEDLAM dataset while preserving ground truth accuracy. We perform extensive experiments, with various noise-conditioning strategies, to evaluate the tradeoff between visual realism and HPS accuracy. We show, for the first time, that generative image models can be controlled by traditional graphics methods to produce training data that increases the accuracy of HPS methods.

arxiv情報

著者 Hanz Cuevas-Velasquez,Priyanka Patel,Haiwen Feng,Michael Black
発行日 2024-11-13 14:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク