要約
複数人物のヒューマン メッシュ リカバリ (HMR) は、特定の入力画像内のすべての個人を検出し、検出された各人物の体型、ポーズ、および 3D 位置を予測することで構成されます。
このタスクに対する主なアプローチは、検出された各個人について単一の予測を出力するように訓練されたニューラル ネットワークに依存します。
対照的に、我々は、ベイジアン ネットワークを使用して、可能性の高いポーズ、体型、固有要素、およびカメラまでの距離にわたる同時パラメトリック分布を出力する方法である CondiMen を提案します。
このアプローチにはいくつかの利点があります。
まず、確率分布は、人のサイズとカメラまでの距離の間の不確実性、または 3D データを 2D 画像平面に投影するときの単純な情報の損失など、このタスクに固有のいくつかの曖昧さを処理できます。
第 2 に、出力分布を追加情報と組み合わせることで、より適切な予測を生成できます。
既知のカメラまたは身体形状パラメータ、または多視点観察を利用することによって。
第三に、出力分布から最も可能性の高い予測を効率的に抽出できるため、提案したアプローチがリアルタイム アプリケーションに適したものになります。
経験的に、私たちのモデルは、i) 最先端のモデルと同等かそれ以上のパフォーマンスを達成し、ii) 姿勢推定に固有の不確実性と相関関係を捉え、iii) テスト時に複数の情報などの追加情報を活用できることがわかりました。
一貫性や体型を事前に確認します。
CondiMen は、手元にある適切な材料を使用して、曖昧さのモデリングにスパイスを加えます。
要約(オリジナル)
Multi-person human mesh recovery (HMR) consists in detecting all individuals in a given input image, and predicting the body shape, pose, and 3D location for each detected person. The dominant approaches to this task rely on neural networks trained to output a single prediction for each detected individual. In contrast, we propose CondiMen, a method that outputs a joint parametric distribution over likely poses, body shapes, intrinsics and distances to the camera, using a Bayesian network. This approach offers several advantages. First, a probability distribution can handle some inherent ambiguities of this task — such as the uncertainty between a person’s size and their distance to the camera, or simply the loss of information when projecting 3D data onto the 2D image plane. Second, the output distribution can be combined with additional information to produce better predictions, by using e.g. known camera or body shape parameters, or by exploiting multi-view observations. Third, one can efficiently extract the most likely predictions from the output distribution, making our proposed approach suitable for real-time applications. Empirically we find that our model i) achieves performance on par with or better than the state-of-the-art, ii) captures uncertainties and correlations inherent in pose estimation and iii) can exploit additional information at test time, such as multi-view consistency or body shape priors. CondiMen spices up the modeling of ambiguity, using just the right ingredients on hand.
arxiv情報
著者 | Brégier Romain,Baradel Fabien,Lucas Thomas,Galaaoui Salma,Armando Matthieu,Weinzaepfel Philippe,Rogez Grégory |
発行日 | 2024-12-17 16:22:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google