Real-time Gesture Animation Generation from Speech for Virtual Human Interaction

要約

我々は、音声から直接ジェスチャーを合成するためのリアルタイムシステムを提案する。我々のデータ駆動型アプローチは、音声とジェスチャーの関係をモデル化するためのGenerative Adversarial Neural Networksをベースとしている。我々は、オンラインで利用可能な大量の話者ビデオデータを利用して、3Dジェスチャモデルを学習する。このモデルは、2秒間の連続した音声入力チャンクを取得することで、話者固有のジェスチャーを生成する。予測されたジェスチャーは、仮想アバター上でアニメーション化される。音声入力とジェスチャーのアニメーションの間に3秒以下の遅延を実現した。コードと動画は https://github.com/mrebol/Gestures-From-Speech で公開されています。

要約(オリジナル)

We propose a real-time system for synthesizing gestures directly from speech. Our data-driven approach is based on Generative Adversarial Neural Networks to model the speech-gesture relationship. We utilize the large amount of speaker video data available online to train our 3D gesture model. Our model generates speaker-specific gestures by taking consecutive audio input chunks of two seconds in length. We animate the predicted gestures on a virtual avatar. We achieve a delay below three seconds between the time of audio input and gesture animation. Code and videos are available at https://github.com/mrebol/Gestures-From-Speech

arxiv情報

著者 Manuel Rebol,Christian Gütl,Krzysztof Pietroszek
発行日 2022-08-05 15:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク