要約
我々は、音声から直接ジェスチャーを合成するためのリアルタイムシステムを提案する。我々のデータ駆動型アプローチは、音声とジェスチャーの関係をモデル化するためのGenerative Adversarial Neural Networksをベースとしている。我々は、オンラインで利用可能な大量の話者ビデオデータを利用して、3Dジェスチャモデルを学習する。このモデルは、2秒間の連続した音声入力チャンクを取得することで、話者固有のジェスチャーを生成する。予測されたジェスチャーは、仮想アバター上でアニメーション化される。音声入力とジェスチャーのアニメーションの間に3秒以下の遅延を実現した。コードと動画は https://github.com/mrebol/Gestures-From-Speech で公開されています。
要約(オリジナル)
We propose a real-time system for synthesizing gestures directly from speech. Our data-driven approach is based on Generative Adversarial Neural Networks to model the speech-gesture relationship. We utilize the large amount of speaker video data available online to train our 3D gesture model. Our model generates speaker-specific gestures by taking consecutive audio input chunks of two seconds in length. We animate the predicted gestures on a virtual avatar. We achieve a delay below three seconds between the time of audio input and gesture animation. Code and videos are available at https://github.com/mrebol/Gestures-From-Speech
arxiv情報
| 著者 | Manuel Rebol,Christian Gütl,Krzysztof Pietroszek |
| 発行日 | 2022-08-05 15:56:34+00:00 |
| arxivサイト | arxiv_id(pdf) |