要約
現実世界の 3D 手話データの欠如、手話動作の複雑なニュアンス、および手話の意味論のクロスモーダルな理解のため、表現力豊かな 3D 動作の再構成と孤立した手話の自動生成を実現することは困難な場合があります。
これらの課題に対処するために、単語レベルの手話の再構築と生成の両方が可能なフレームワークである SignAvatar を紹介します。
SignAvatar は、トランスフォーマーベースの条件付き変分オートエンコーダー アーキテクチャを採用し、さまざまなセマンティック モダリティ間の関係を効果的に確立します。
さらに、このアプローチには、モデルの堅牢性と一般化を強化するカリキュラム学習戦略が組み込まれており、その結果、より現実的な動きが得られます。
さらに、ユニークな手話用に、体、手、顔の 3D 関節回転データで構成される ASL3DWord データセットを提供します。
私たちは、広範な実験を通じて SignAvatar の有効性を実証し、その優れた再構成機能と自動生成機能を示します。
コードとデータセットはプロジェクト ページから入手できます。
要約(オリジナル)
Achieving expressive 3D motion reconstruction and automatic generation for isolated sign words can be challenging, due to the lack of real-world 3D sign-word data, the complex nuances of signing motions, and the cross-modal understanding of sign language semantics. To address these challenges, we introduce SignAvatar, a framework capable of both word-level sign language reconstruction and generation. SignAvatar employs a transformer-based conditional variational autoencoder architecture, effectively establishing relationships across different semantic modalities. Additionally, this approach incorporates a curriculum learning strategy to enhance the model’s robustness and generalization, resulting in more realistic motions. Furthermore, we contribute the ASL3DWord dataset, composed of 3D joint rotation data for the body, hands, and face, for unique sign words. We demonstrate the effectiveness of SignAvatar through extensive experiments, showcasing its superior reconstruction and automatic generation capabilities. The code and dataset are available on the project page.
arxiv情報
| 著者 | Lu Dong,Lipisha Chaudhary,Fei Xu,Xiao Wang,Mason Lary,Ifeoma Nwogu | 
| 発行日 | 2024-05-13 17:48:22+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
