Evaluating gesture-generation in a large-scale open challenge: The GENEA Challenge 2022

要約

このペーパーでは、データ駆動型の自動共同音声ジェスチャ生成をベンチマークする 2 番目の GENEA チャレンジについて報告します。
参加チームは、同じ音声とモーションのデータセットを使用して、ジェスチャー生成システムを構築しました。
これらすべてのシステムによって生成されたモーションは、標準化されたビジュアライゼーション パイプラインを使用してビデオにレンダリングされ、いくつかの大規模なクラウドソーシングによるユーザー調査で評価されました。
異なる研究論文を比較する場合とは異なり、ここでは結果の違いは方法の違いによるものであり、システム間の直接的な比較が可能です。
このデータセットは、二者択一の会話をしているさまざまな人物の、指を含む 18 時間の全身モーション キャプチャに基づいています。
10 チームが、全身と上半身のジェスチャーの 2 つのレベルでチャレンジに参加しました。
各層について、ジェスチャ モーションの人間らしさと、特定の音声信号に対する適切性の両方を評価しました。
私たちの評価は、この分野では困難な問題であったジェスチャーの適切性から人間らしさを分離します。
評価結果は革命であり、啓示です。
一部の合成条件は、人間のモーション キャプチャよりもはるかに人間に似ていると評価されています。
私たちの知る限り、これは忠実度の高いアバターでこれまでに示されたことはありません.
一方で、すべての合成モーションは、元のモーション キャプチャの記録よりもスピーチにはあまり適していないことがわかります。
また、この大規模な評価では、従来の客観的な指標が主観的な人間らしさの評価とうまく相関していないこともわかりました。
1 つの例外は Fr\’echet ジェスチャ距離 (FGD) で、Kendall のタウ ランク相関が約 -0.5 になります。
チャレンジの結果に基づいて、システムの構築と評価に関する多数の推奨事項を作成します。

要約(オリジナル)

This paper reports on the second GENEA Challenge to benchmark data-driven automatic co-speech gesture generation. Participating teams used the same speech and motion dataset to build gesture-generation systems. Motion generated by all these systems was rendered to video using a standardised visualisation pipeline and evaluated in several large, crowdsourced user studies. Unlike when comparing different research papers, differences in results are here only due to differences between methods, enabling direct comparison between systems. The dataset was based on 18 hours of full-body motion capture, including fingers, of different persons engaging in a dyadic conversation. Ten teams participated in the challenge across two tiers: full-body and upper-body gesticulation. For each tier, we evaluated both the human-likeness of the gesture motion and its appropriateness for the specific speech signal. Our evaluations decouple human-likeness from gesture appropriateness, which has been a difficult problem in the field. The evaluation results are a revolution, and a revelation. Some synthetic conditions are rated as significantly more human-like than human motion capture. To the best of our knowledge, this has never been shown before on a high-fidelity avatar. On the other hand, all synthetic motion is found to be vastly less appropriate for the speech than the original motion-capture recordings. We also find that conventional objective metrics do not correlate well with subjective human-likeness ratings in this large evaluation. The one exception is the Fr\’echet gesture distance (FGD), which achieves a Kendall’s tau rank correlation of around -0.5. Based on the challenge results we formulate numerous recommendations for system building and evaluation.

arxiv情報

著者 Taras Kucherenko,Pieter Wolfert,Youngwoo Yoon,Carla Viegas,Teodor Nikolov,Mihail Tsakov,Gustav Eje Henter
発行日 2023-03-15 16:21:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.MM, I.2 パーマリンク