Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot

要約

単一の RGB 画像から複数人の 3D ヒューマン メッシュを復元するための強力なシングルショット モデルである Multi-HMR を紹介します。
SMPL-X パラメトリック モデルとカメラ座標系の空間位置を使用して、予測は体全体 (手や顔の表情を含む) を網羅します。
私たちのモデルは、標準の Vision Transformer (ViT) バックボーンによって生成された機能を使用して、人物中心の粗い 2D ヒートマップを予測することで人物を検出します。
次に、Human Prediction Head (HPH) と呼ばれる新しいクロスアテンション モジュールを使用して、検出された中心トークンごとに 1 つのクエリを使用して、全身の姿勢、形状、空間的位置を予測し、一連の特徴全体に注目します。
SMPL-X パラメータの直接予測では最適とは言えない結果が得られるため、CUFFS を導入します。
全身被写体のクローズアップ フレーム データセット。さまざまな手のポーズでカメラに近づく人間が含まれます。
このデータセットをトレーニングに組み込むことで、特に手の予測がさらに強化され、最先端のパフォーマンスを達成できることを示します。
マルチ HMR は、オプションで、利用可能な場合、各画像トークンのカメラ光線方向をエンコードすることにより、カメラの組み込みも考慮します。
このシンプルなデザインは、全身ベンチマークと全身ベンチマークで同時に優れたパフォーマンスを実現します。
さまざまなバックボーン サイズと入力解像度でモデルをトレーニングします。
特に、ViT-S バックボーンと $448\times448$ の入力画像を使用することで、最先端の手法に関して高速で競争力のあるモデルがすでに得られていますが、より大きなモデルとより高い解像度によりパフォーマンスがさらに向上することを考慮しています。

要約(オリジナル)

We present Multi-HMR, a strong single-shot model for multi-person 3D human mesh recovery from a single RGB image. Predictions encompass the whole body, i.e, including hands and facial expressions, using the SMPL-X parametric model and spatial location in the camera coordinate system. Our model detects people by predicting coarse 2D heatmaps of person centers, using features produced by a standard Vision Transformer (ViT) backbone. It then predicts their whole-body pose, shape and spatial location using a new cross-attention module called the Human Prediction Head (HPH), with one query per detected center token, attending to the entire set of features. As direct prediction of SMPL-X parameters yields suboptimal results, we introduce CUFFS; the Close-Up Frames of Full-Body Subjects dataset, containing humans close to the camera with diverse hand poses. We show that incorporating this dataset into training further enhances predictions, particularly for hands, enabling us to achieve state-of-the-art performance. Multi-HMR also optionally accounts for camera intrinsics, if available, by encoding camera ray directions for each image token. This simple design achieves strong performance on whole-body and body-only benchmarks simultaneously. We train models with various backbone sizes and input resolutions. In particular, using a ViT-S backbone and $448\times448$ input images already yields a fast and competitive model with respect to state-of-the-art methods, while considering larger models and higher resolutions further improve performance.

arxiv情報

著者 Fabien Baradel,Matthieu Armando,Salma Galaaoui,Romain Brégier,Philippe Weinzaepfel,Grégory Rogez,Thomas Lucas
発行日 2024-02-22 16:05:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク