要約
この論文では、聴覚障害者のコミュニケーションギャップを埋めるために設計された初の大規模マルチプロンプト 3D 手話 (SL) モーション データセットである SignAvatars について紹介します。
デジタルコミュニケーションに関する研究の数は飛躍的に増加していますが、既存のコミュニケーション技術の大部分は、聴覚障害のあるコミュニティにとって不可欠なコミュニケーション方法である SL ではなく、主に話し言葉または書き言葉に対応しています。
既存の SL データセット、辞書、および手話作成 (SLP) 手法は通常 2D に限定されています。SL 用の 3D モデルとアバターへの注釈付けは、通常、SL の専門家によって完全に手作業で行われる労働集約的なプロセスであり、多くの場合不自然なアバターが生成されるためです。
これらの課題に応えて、私たちは SignAvatars データセットをコンパイルおよびキュレーションしています。このデータセットは 153 人の署名者からの 70,000 本のビデオ、合計 834 万フレームで構成されており、孤立した標識と連続した共同関節標識の両方をカバーしており、HamNoSys、話し言葉、単語などの複数のプロンプトが含まれています。
。
体、手、顔のメッシュや生体力学的に有効なポーズ、2D および 3D キーポイントなどの 3D 総合的な注釈を生成するために、SL ビデオの大規模なコーパス上で動作する自動注釈パイプラインを導入します。
SignAvatars は、テキスト スクリプト、個々の単語、HamNoSys 表記などの多様な入力から、3D 手話認識 (SLR) や新しい 3D SL 制作 (SLP) などのさまざまなタスクを容易にします。
したがって、SignAvatar の可能性を評価するために、3D SL ホリスティック モーション制作の統一ベンチマークをさらに提案します。
私たちは、この取り組みが聴覚障害のあるコミュニティにデジタル世界をもたらすための重要な前進であると信じています。
私たちのプロジェクトページは https://signavatars.github.io/ にあります。
要約(オリジナル)
In this paper, we present SignAvatars, the first large-scale multi-prompt 3D sign language (SL) motion dataset designed to bridge the communication gap for hearing-impaired individuals. While there has been an exponentially growing number of research regarding digital communication, the majority of existing communication technologies primarily cater to spoken or written languages, instead of SL, the essential communication method for hearing-impaired communities. Existing SL datasets, dictionaries, and sign language production (SLP) methods are typically limited to 2D as the annotating 3D models and avatars for SL is usually an entirely manual and labor-intensive process conducted by SL experts, often resulting in unnatural avatars. In response to these challenges, we compile and curate the SignAvatars dataset, which comprises 70,000 videos from 153 signers, totaling 8.34 million frames, covering both isolated signs and continuous, co-articulated signs, with multiple prompts including HamNoSys, spoken language, and words. To yield 3D holistic annotations, including meshes and biomechanically-valid poses of body, hands, and face, as well as 2D and 3D keypoints, we introduce an automated annotation pipeline operating on our large corpus of SL videos. SignAvatars facilitates various tasks such as 3D sign language recognition (SLR) and the novel 3D SL production (SLP) from diverse inputs like text scripts, individual words, and HamNoSys notation. Hence, to evaluate the potential of SignAvatars, we further propose a unified benchmark of 3D SL holistic motion production. We believe that this work is a significant step forward towards bringing the digital world to the hearing-impaired communities. Our project page is at https://signavatars.github.io/
arxiv情報
著者 | Zhengdi Yu,Shaoli Huang,Yongkang Cheng,Tolga Birdal |
発行日 | 2023-10-31 13:15:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google