要約
生成 AI および特にテキストから画像への手法の分野における急速な進歩により、今日のコンピューター生成画像の操作方法や認識方法が変化しました。
並行して、3D Morphable Models (3DMM) を使用した 3D 顔の再構成でも大きな進歩が見られました。
この論文では、3DMM (3D) を介して制御される、事前にトレーニングされた大規模なテキストから画像への事前変換 (2D) を利用して、話している顔のフォトリアリスティックなビデオを出力する、新しいハイブリッド 2D/3D 生成方法である SVP を紹介します。
具体的には、一般的な 2D 安定拡散モデルの個人固有の微調整を導入します。調整として時間 3DMM シーケンスを提供し、時間ノイズ除去手順を導入することで、このモデルをビデオ モデルに引き上げます。
出力として、このモデルは 3DMM ベースのコントロールを備えた人の時間的に滑らかな画像、つまり人固有のアバターを生成します。
この個人固有のアバターの顔の外観は、テスト時に微調整することなく、編集してテキストで定義された有名人に変形させることができます。
この方法は定量的および定性的に分析され、私たちの方法が最先端の単眼頭部アバター方法よりも優れていることを示します。
要約(オリジナル)
Rapid advances in the field of generative AI and text-to-image methods in particular have transformed the way we interact with and perceive computer-generated imagery today. In parallel, much progress has been made in 3D face reconstruction, using 3D Morphable Models (3DMM). In this paper, we present SVP, a novel hybrid 2D/3D generation method that outputs photorealistic videos of talking faces leveraging a large pre-trained text-to-image prior (2D), controlled via a 3DMM (3D). Specifically, we introduce a person-specific fine-tuning of a general 2D stable diffusion model which we lift to a video model by providing temporal 3DMM sequences as conditioning and by introducing a temporal denoising procedure. As an output, this model generates temporally smooth imagery of a person with 3DMM-based controls, i.e., a person-specific avatar. The facial appearance of this person-specific avatar can be edited and morphed to text-defined celebrities, without any fine-tuning at test time. The method is analyzed quantitatively and qualitatively, and we show that our method outperforms state-of-the-art monocular head avatar methods.
arxiv情報
著者 | Mirela Ostrek,Justus Thies |
発行日 | 2024-09-26 17:26:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google