GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

要約

モノクラー画像からの3Dヒトモデルの再構築は、パフォーマンス追跡、怪我防止、仮想トレーニングなど、スポーツ業界で重要なアプリケーションを持っています。
この作業では、3Dヒトのポーズと形状の推定を、ガウスの混合物で構成されるシーンの表現である3Dガウススプラッティング(3DGS)と組み合わせます。
これにより、3Dグラウンドトゥルースなしで、マルチビュー画像のみで人間のモデル予測子をトレーニングまたは微調整できます。
単一の入力画像から人間のこのような混合物を予測することは、自己閉鎖と関節への依存のために困難ですが、さまざまな衣服やポーズに対応するのに十分な柔軟性を維持する必要があります。
私たちの重要な観察は、標準化されたヒトメッシュ(SMPLなど)の頂点が、ガウスの適切な空間密度と近似初期位置を提供できることです。
次に、トランスモデルをトレーニングして、これらの位置と他の3DGS属性とSMPLパラメーターに対する比較的小さな調整を共同で予測できます。
この組み合わせ(マルチビュー監督のみを使用)が、高価な拡散モデルまたは3Dポイント監督のない単一の画像から3Dヒトモデルのほぼリアルタイム推論を達成できるため、あらゆるレベルのスポーツ業界に最適であることを経験的に示しています。
さらに重要なことは、レンダリングは、衣服やその他の幾何学的なバリエーションを占めることにより、3Dポーズ推定を改善する効果的な補助目標です。
このコードはhttps://github.com/prosperolo/gstで入手できます。

要約(オリジナル)

Reconstructing posed 3D human models from monocular images has important applications in the sports industry, including performance tracking, injury prevention and virtual training. In this work, we combine 3D human pose and shape estimation with 3D Gaussian Splatting (3DGS), a representation of the scene composed of a mixture of Gaussians. This allows training or fine-tuning a human model predictor on multi-view images alone, without 3D ground truth. Predicting such mixtures for a human from a single input image is challenging due to self-occlusions and dependence on articulations, while also needing to retain enough flexibility to accommodate a variety of clothes and poses. Our key observation is that the vertices of standardized human meshes (such as SMPL) can provide an adequate spatial density and approximate initial position for the Gaussians. We can then train a transformer model to jointly predict comparatively small adjustments to these positions, as well as the other 3DGS attributes and the SMPL parameters. We show empirically that this combination (using only multi-view supervision) can achieve near real-time inference of 3D human models from a single image without expensive diffusion models or 3D points supervision, thus making it ideal for the sport industry at any level. More importantly, rendering is an effective auxiliary objective to refine 3D pose estimation by accounting for clothes and other geometric variations. The code is available at https://github.com/prosperolo/GST.

arxiv情報

著者 Lorenza Prospero,Abdullah Hamdi,Joao F. Henriques,Christian Rupprecht
発行日 2025-04-16 14:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク