AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis

要約

タイトル: AQ-GT:時系列に沿って整列され、量子化されたGRU-Transformerによる共話ジェスチャー合成

要約:
– 共話ジェスチャーを実現することは、マルチモーダルな人工エージェントの作成において、真実味のあるかつコンテキストに関連する重要なタスクである。
– 以前の方法は、共話ジェスチャー表現と生成された動きの直接の対応を学習することに焦点を当てていたため、見かけ上自然なジェスチャーを生成していたが、人間による評価ではしばしば説得力に欠けていた。
– 本研究では、ジェネレーティブアドバーサリーネットワークを用いて、部分的なジェスチャーシーケンスを事前に学習し、量子化パイプラインでコードブックベクトルとして出力する手法を提案する。
– このコードブックベクトルは、入力と出力の両方の基盤となり、ジェスチャーの生成と再構築を行うことができる。
– 直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、このフレームワークは、生成プロセスにおけるアーティファクトを回避しながら、非常にリアルで表現豊かなジェスチャーの生成を容易にする。
– 提案手法を、共話ジェスチャー生成における従来の方法や人間の行動データセットと比較し、アブレーションスタディを実施して評価する。結果、提案手法は現在の最先端技術を大幅に上回る性能を発揮し、一部は人間のジェスチャーと区別がつかない程度の精度を示した。
– データパイプラインと生成フレームワークを公開している。

要約(オリジナル)

The generation of realistic and contextually relevant co-speech gestures is a challenging yet increasingly important task in the creation of multimodal artificial agents. Prior methods focused on learning a direct correspondence between co-speech gesture representations and produced motions, which created seemingly natural but often unconvincing gestures during human assessment. We present an approach to pre-train partial gesture sequences using a generative adversarial network with a quantization pipeline. The resulting codebook vectors serve as both input and output in our framework, forming the basis for the generation and reconstruction of gestures. By learning the mapping of a latent space representation as opposed to directly mapping it to a vector representation, this framework facilitates the generation of highly realistic and expressive gestures that closely replicate human movement and behavior, while simultaneously avoiding artifacts in the generation process. We evaluate our approach by comparing it with established methods for generating co-speech gestures as well as with existing datasets of human behavior. We also perform an ablation study to assess our findings. The results show that our approach outperforms the current state of the art by a clear margin and is partially indistinguishable from human gesturing. We make our data pipeline and the generation framework publicly available.

arxiv情報

著者 Hendric Voß,Stefan Kopp
発行日 2023-05-08 11:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.GR, cs.HC, cs.LG, cs.SD, eess.AS パーマリンク