要約
単眼の画像やビデオからの人間の頭の正確でリアルタイムの3D再構築は、多数の視覚的アプリケーションの根底にあります。
3Dグラウンドトゥルースデータを大規模にすることは困難であるため、以前の方法では、自己教師の方法で豊富な2Dビデオから学ぼうとしています。
通常、これには微分可能なメッシュレンダリングの使用が含まれます。これは効果的ですが、制限に直面します。
これを改善するために、Sheap(2Dガウス系を介して学習した自己監視ヘッドジオメトリ予測子)を提案します。
ソース画像を考えると、3DMMメッシュとこのメッシュに装備されたガウスのセットを予測します。
次に、ターゲットフレームと一致するようにこの装備されたヘッドアバターを蘇生させ、3DMMとガウスの予測ネットワークの両方に測光損失をバックプロパゲートします。
ガウス人を使用してレンダリングすることで、この自己監視されたアプローチの有効性が大幅に向上することがわかります。
2Dデータのみでトレーニングを行うと、この方法は、中立面の現在のベンチマークと非中立表現の新しいベンチマークに関する幾何学的評価における既存の自己監視アプローチを上回ります。
また、私たちの方法は、非常に表現力のあるメッシュを生成し、感情分類の最先端を上回ることができます。
要約(オリジナル)
Accurate, real-time 3D reconstruction of human heads from monocular images and videos underlies numerous visual applications. As 3D ground truth data is hard to come by at scale, previous methods have sought to learn from abundant 2D videos in a self-supervised manner. Typically, this involves the use of differentiable mesh rendering, which is effective but faces limitations. To improve on this, we propose SHeaP (Self-supervised Head Geometry Predictor Learned via 2D Gaussians). Given a source image, we predict a 3DMM mesh and a set of Gaussians that are rigged to this mesh. We then reanimate this rigged head avatar to match a target frame, and backpropagate photometric losses to both the 3DMM and Gaussian prediction networks. We find that using Gaussians for rendering substantially improves the effectiveness of this self-supervised approach. Training solely on 2D data, our method surpasses existing self-supervised approaches in geometric evaluations on the NoW benchmark for neutral faces and a new benchmark for non-neutral expressions. Our method also produces highly expressive meshes, outperforming state-of-the-art in emotion classification.
arxiv情報
著者 | Liam Schoneveld,Zhe Chen,Davide Davoli,Jiapeng Tang,Saimon Terazawa,Ko Nishino,Matthias Nießner |
発行日 | 2025-04-16 17:55:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google