Audio-Driven Co-Speech Gesture Video Generation

要約

音声ジェスチャは、人間と機械のインタラクションやデジタルエンターテイメントにおいて重要である。これまでの研究では、音声を人間の骨格(例えば、2Dキーポイント)にマッピングすることがほとんどであったが、画像領域における話者のジェスチャーを直接生成することは未解決のままである。本研究では、音声駆動型共同音声ジェスチャ動画生成というこの難題を正式に定義し、研究する。すなわち、統一的なフレームワークを用いて、音声駆動型の話者画像列を生成することである。本論文では、音声ジェスチャーを一般的な動作パターンと微妙なリズムのダイナミクスに分解することができることを明らかにする。このため、音声ジェスチャーを効果的にキャプチャするための新しいフレームワーク、Audio-driveN Gesture vIdeo gEneration (ANGIE)を提案する。本研究では、2次元スケルトンなどの人体構造情報に代えて、教師なし動作表現を用いて、忠実度の高い画像生成を行う。具体的には、1) 暗黙の運動表現からコードブックに共通の共話ジェスチャーパターンを要約するベクトル量子化運動抽出器 (VQ-Motion Extractor) を提案する。2)さらに、微妙な韻律的な動きを補完するために、動き細分化付き共同音声ジェスチャーGPT (Co-Speech GPT)を考案する。本フレームワークは、リアルで生き生きとした音声ジェスチャー映像を生成することを、広範な実験により実証しています。デモ動画とその他のリソースは、https://alvinliu0.github.io/projects/ANGIE でご覧になれます。

要約(オリジナル)

Co-speech gesture is crucial for human-machine interaction and digital entertainment. While previous works mostly map speech audio to human skeletons (e.g., 2D keypoints), directly generating speakers’ gestures in the image domain remains unsolved. In this work, we formally define and study this challenging problem of audio-driven co-speech gesture video generation, i.e., using a unified framework to generate speaker image sequence driven by speech audio. Our key insight is that the co-speech gestures can be decomposed into common motion patterns and subtle rhythmic dynamics. To this end, we propose a novel framework, Audio-driveN Gesture vIdeo gEneration (ANGIE), to effectively capture the reusable co-speech gesture patterns as well as fine-grained rhythmic movements. To achieve high-fidelity image sequence generation, we leverage an unsupervised motion representation instead of a structural human body prior (e.g., 2D skeletons). Specifically, 1) we propose a vector quantized motion extractor (VQ-Motion Extractor) to summarize common co-speech gesture patterns from implicit motion representation to codebooks. 2) Moreover, a co-speech gesture GPT with motion refinement (Co-Speech GPT) is devised to complement the subtle prosodic motion details. Extensive experiments demonstrate that our framework renders realistic and vivid co-speech gesture video. Demo video and more resources can be found in: https://alvinliu0.github.io/projects/ANGIE

arxiv情報

著者 Xian Liu,Qianyi Wu,Hang Zhou,Yuanqi Du,Wayne Wu,Dahua Lin,Ziwei Liu
発行日 2022-12-05 15:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク