Expressive Whole-Body 3D Gaussian Avatar

要約

顔の表情と手の動きは、私たちの感情を表現し、世界と対話するために必要です。
それにもかかわらず、何気なく撮影したビデオからモデル化された 3D ヒューマン アバターの多くは、顔の表情や手の動作をサポートせず、体の動作のみをサポートしています。本作品では、短い単眼ビデオから学習された表現力豊かな全身 3D ヒューマン アバター ExAvatar を紹介します。
ExAvatar は、全身パラメトリック メッシュ モデル (SMPL-X) と 3D ガウス スプラッティング (3DGS) を組み合わせて設計されています。
主な課題は、1) ビデオ内の顔の表情やポーズの多様性が限られていること、2) 3D スキャンや RGBD 画像などの 3D 観察が存在しないことです。
ビデオの多様性が限られているため、斬新な顔の表情やポーズを備えたアニメーションを作成するのは簡単ではありません。
さらに、3D 観察が存在しないと、ビデオでは観察されない人間の部分に重大な曖昧さが生じる可能性があり、その結果、新しい動きの下で顕著なアーティファクトが発生する可能性があります。
これらに対処するために、メッシュと 3D ガウスのハイブリッド表現を導入します。
私たちのハイブリッド表現は、SMPL-X のメッシュ トポロジーに従って、各 3D ガウスをそれらの間の事前定義された接続情報 (つまり、三角形の面) を持つ表面上の頂点として扱います。
SMPL-X の表情空間によって駆動される新しい表情で ExAvatar をアニメーション化できるようになります。
さらに、接続ベースの正則化機能を使用することで、新しい顔の表情やポーズのアーティファクトを大幅に削減します。

要約(オリジナル)

Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.

arxiv情報

著者 Gyeongsik Moon,Takaaki Shiratori,Shunsuke Saito
発行日 2024-07-31 15:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク