Investigating the impact of 2D gesture representation on co-speech gesture generation

要約

共同スピーチジェスチャーは、人間と身体的会話エージェント (ECA) との間の対話において重要な役割を果たします。
最近の深層学習手法により、音声と同期した現実的で自然な同時音声ジェスチャーを生成できますが、そのようなアプローチには大量の学習データが必要です。
人間の姿勢検出モデルを通じて YouTube などのソースからビデオをコンパイルする「In-the-wild」データセットは、音声とペアになった 2D スケルトン シーケンスを提供することでソリューションを提供します。
同時に、これらの 2D ポーズ シーケンスを 3D 対応物に変換できる革新的なリフティング モデルが登場し、3D ジェスチャの大規模で多様なデータセットにつながります。
ただし、導出された 3D 姿勢推定は本質的に疑似グラウンド トゥルースであり、実際のグラウンド トゥルースは 2D モーション データです。
この区別は、生成されるモーションの品質に対するジェスチャ表現の次元の影響に関する疑問を引き起こしますが、このトピックは、私たちの知る限り、ほとんど解明されていないままです。
この研究では、トレーニング データ、2D または 3D 関節座標の次元が、マルチモーダル音声からジェスチャの深層生成モデルのパフォーマンスに与える影響を評価します。
リフティング モデルを使用して、2D で生成された体のポーズのシーケンスを 3D に変換します。
次に、3D で直接生成された一連のジェスチャと、2D で生成され、後処理として 3D にリフトされたジェスチャとを比較します。

要約(オリジナル)

Co-speech gestures play a crucial role in the interactions between humans and embodied conversational agents (ECA). Recent deep learning methods enable the generation of realistic, natural co-speech gestures synchronized with speech, but such approaches require large amounts of training data. ‘In-the-wild’ datasets, which compile videos from sources such as YouTube through human pose detection models, offer a solution by providing 2D skeleton sequences that are paired with speech. Concurrently, innovative lifting models have emerged, capable of transforming these 2D pose sequences into their 3D counterparts, leading to large and diverse datasets of 3D gestures. However, the derived 3D pose estimation is essentially a pseudo-ground truth, with the actual ground truth being the 2D motion data. This distinction raises questions about the impact of gesture representation dimensionality on the quality of generated motions, a topic that, to our knowledge, remains largely unexplored. In this work, we evaluate the impact of the dimensionality of the training data, 2D or 3D joint coordinates, on the performance of a multimodal speech-to-gesture deep generative model. We use a lifting model to convert 2D-generated sequences of body pose to 3D. Then, we compare the sequence of gestures generated directly in 3D to the gestures generated in 2D and lifted to 3D as post-processing.

arxiv情報

著者 Teo Guichoux,Laure Soulier,Nicolas Obin,Catherine Pelachaud
発行日 2024-06-24 08:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク