Neural Sign Actors: A diffusion model for 3D sign language production from text

要約

手話 (SL) は、聴覚障害者コミュニティの主要なコミュニケーション手段として機能します。
SL の認識と翻訳のための深層学習手法は、有望な結果を達成しています。
ただし、手話制作 (SLP) では、生成されるモーションが現実的であり、正確な意味を持たなければならないため、課題が生じます。
ほとんどの SLP 手法は 2D データに依存しているため、現実性が損なわれます。
この研究では、拡散ベースの SLP モデルが、4D 署名アバターとそれに対応するテキスト トランスクリプトの厳選された大規模データセットでトレーニングされます。
提案された方法は、SMPL-X 身体骨格上に定義された新しい解剖学的情報に基づいたグラフ ニューラル ネットワーク上で形成された拡散プロセスを使用して、制約のない会話領域から 3D アバターの動的シーケンスを生成できます。
定量的および定性的な実験を通じて、提案した方法が以前の SLP 方法よりも大幅に優れていることを示します。
この研究は、現実的な神経標識アバターへの重要な一歩を踏み出し、聴覚障害者コミュニティと聴者コミュニティの間のコミュニケーションのギャップを橋渡しします。

要約(オリジナル)

Sign Languages (SL) serve as the primary mode of communication for the Deaf and Hard of Hearing communities. Deep learning methods for SL recognition and translation have achieved promising results. However, Sign Language Production (SLP) poses a challenge as the generated motions must be realistic and have precise semantic meaning. Most SLP methods rely on 2D data, which hinders their realism. In this work, a diffusion-based SLP model is trained on a curated large-scale dataset of 4D signing avatars and their corresponding text transcripts. The proposed method can generate dynamic sequences of 3D avatars from an unconstrained domain of discourse using a diffusion process formed on a novel and anatomically informed graph neural network defined on the SMPL-X body skeleton. Through quantitative and qualitative experiments, we show that the proposed method considerably outperforms previous methods of SLP. This work makes an important step towards realistic neural sign avatars, bridging the communication gap between Deaf and hearing communities.

arxiv情報

著者 Vasileios Baltatzis,Rolandos Alexandros Potamias,Evangelos Ververas,Guanxiong Sun,Jiankang Deng,Stefanos Zafeiriou
発行日 2024-04-05 13:49:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク