Instruct-Video2Avatar: Video-to-Avatar Generation with Instructions

要約

本研究では、編集されたフォトリアルなデジタルアバターをテキスト指示で合成する方法を提案する。短い単眼RGBビデオとテキスト指示が与えられたとき、本手法は画像条件付き拡散モデルを用いて1つの頭部画像を編集し、ビデオ様式化法を用いて他の頭部画像の編集を達成する。本手法は、学習と更新を繰り返し(3回以上)、変形可能な神経放射場頭部合成法により、編集されたフォトリアルなアニメーション可能な3D神経頭部アバターを合成する。様々な被験者を対象とした定量的・定性的な研究において、本手法は最先端の手法を凌駕している。

要約(オリジナル)

We propose a method for synthesizing edited photo-realistic digital avatars with text instructions. Given a short monocular RGB video and text instructions, our method uses an image-conditioned diffusion model to edit one head image and uses the video stylization method to accomplish the editing of other head images. Through iterative training and update (three times or more), our method synthesizes edited photo-realistic animatable 3D neural head avatars with a deformable neural radiance field head synthesis method. In quantitative and qualitative studies on various subjects, our method outperforms state-of-the-art methods.

arxiv情報

著者 Shaoxu Li
発行日 2023-06-05 14:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク