要約
単一のRGB画像からの人間の顔の3D再構成に対処します。
この目的のために、3Dの形態可能なフェイスモデル(3DMM)の最適化を制約するために、ピクセルあたりの幾何学的キューを予測する高度な視覚化された視力変圧器のセットであるPixel3DMMを提案します。
Dino Foundationモデルの潜在的な特徴を活用し、カスタマイズされた表面正常およびUV配位予測ヘッドを導入します。
Flame Meshトポロジーに対して3つの高品質の3Dフェイスデータセットを登録することにより、モデルをトレーニングします。これにより、合計1,000を超えるアイデンティティと976K画像が表示されます。
3Dフェイスの再構築のために、UV座標および通常の推定値からの3DMMパラメーターを解決する火炎のフィッティングオペット化を提案します。
私たちの方法を評価するために、多様性の顔の表情、視聴角度、民族性を特徴とする、単一イメージの顔の再構築のための新しいベンチマークを紹介します。
重要なことに、私たちのベンチマークは、ポーズとニュートラルの顔のジオメトリの両方を評価した最初のベンチマークです。
最終的に、私たちの方法は、ポーズされた表情の幾何学的精度の点で、最も競争の激しいベースラインを15%以上上回ります。
要約(オリジナル)
We address the 3D reconstruction of human faces from a single RGB image. To this end, we propose Pixel3DMM, a set of highly-generalized vision transformers which predict per-pixel geometric cues in order to constrain the optimization of a 3D morphable face model (3DMM). We exploit the latent features of the DINO foundation model, and introduce a tailored surface normal and uv-coordinate prediction head. We train our model by registering three high-quality 3D face datasets against the FLAME mesh topology, which results in a total of over 1,000 identities and 976K images. For 3D face reconstruction, we propose a FLAME fitting opitmization that solves for the 3DMM parameters from the uv-coordinate and normal estimates. To evaluate our method, we introduce a new benchmark for single-image face reconstruction, which features high diversity facial expressions, viewing angles, and ethnicities. Crucially, our benchmark is the first to evaluate both posed and neutral facial geometry. Ultimately, our method outperforms the most competitive baselines by over 15% in terms of geometric accuracy for posed facial expressions.
arxiv情報
著者 | Simon Giebenhain,Tobias Kirschstein,Martin Rünz,Lourdes Agapito,Matthias Nießner |
発行日 | 2025-05-01 15:47:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google