要約
今では顔をスキャンして自動的に高画質で登録できるようになりました。
ただし、結果として得られる顔メッシュにはさらなる処理が必要になることがよくあります。不要な頭の動きを取り除くために顔メッシュを安定させる必要があります。
安定化は、顔の表情を頭の硬い動きからきれいに分離する必要があるゲーム開発や映画制作などのタスクにとって重要です。
手動による安定化は多大な労力を要するため、自動化する試みがなされてきました。
しかし、以前の方法は依然として実用的ではありません。これらは依然として手動入力を必要とし、不正確な位置合わせを生成し、疑わしいヒューリスティックと遅い最適化に依存するか、時間的に順序付けされた入力を想定するかのいずれかです。
代わりに、シンプルで完全に自動化された新しい学習ベースのアプローチを提案します。
私たちは安定化を回帰問題として扱います。2 つの顔メッシュが与えられると、私たちのネットワークは頭蓋骨を整列させるそれらの間の剛体変換を直接予測します。
3D モーファブル モデル (3DMM) パラメータが頭蓋骨の動きを顔の皮膚の動きから分離するという事実を利用して、3D モーファブル モデル (3DMM) を使用して合成トレーニング データを生成します。
広範な実験を通じて、私たちのアプローチは、動的な顔のパフォーマンスだけでなく、離散的な表情のセットを安定化するというタスクにおいても、量的および質的に最先端のアプローチよりも優れていることを示しています。
さらに、他のユーザーが独自の用途に当社のアプローチを採用できるよう、設計の選択とベストプラクティスを詳細に説明したアブレーション研究を提供します。
補足ビデオは、プロジェクト Web ページ syntec-research.github.io/FaceStab にあります。
要約(オリジナル)
Nowadays, it is possible to scan faces and automatically register them with high quality. However, the resulting face meshes often need further processing: we need to stabilize them to remove unwanted head movement. Stabilization is important for tasks like game development or movie making which require facial expressions to be cleanly separated from rigid head motion. Since manual stabilization is labor-intensive, there have been attempts to automate it. However, previous methods remain impractical: they either still require some manual input, produce imprecise alignments, rely on dubious heuristics and slow optimization, or assume a temporally ordered input. Instead, we present a new learning-based approach that is simple and fully automatic. We treat stabilization as a regression problem: given two face meshes, our network directly predicts the rigid transform between them that brings their skulls into alignment. We generate synthetic training data using a 3D Morphable Model (3DMM), exploiting the fact that 3DMM parameters separate skull motion from facial skin motion. Through extensive experiments we show that our approach outperforms the state-of-the-art both quantitatively and qualitatively on the tasks of stabilizing discrete sets of facial expressions as well as dynamic facial performances. Furthermore, we provide an ablation study detailing the design choices and best practices to help others adopt our approach for their own uses. Supplementary videos can be found on the project webpage syntec-research.github.io/FaceStab.
arxiv情報
著者 | Jan Bednarik,Erroll Wood,Vasileios Choutas,Timo Bolkart,Daoye Wang,Chenglei Wu,Thabo Beeler |
発行日 | 2024-11-22 17:03:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google