SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark

要約

聴覚障害者と難聴者のコミュニケーションギャップを埋めるために設計された、初の大規模マルチプロンプト 3D 手話 (SL) モーション データセットである SignAvatars を紹介します。
デジタルコミュニケーションに関する研究の数は飛躍的に増えていますが、既存のコミュニケーション技術の大部分は、ろう者や難聴者のコミュニティにとって不可欠なコミュニケーション方法であるSLではなく、主に話し言葉または書き言葉に対応しています。
既存の SL データセット、辞書、および手話作成 (SLP) 手法は、通常 2D に限定されています。これは、SL の 3D モデルとアバターに注釈を付けるのは、通常、SL の専門家によって完全に手作業で行われる労働集約的なプロセスであり、不自然なアバターが生成されることがよくあります。
これらの課題に応えて、私たちは SignAvatars データセットをコンパイルおよびキュレーションしています。このデータセットは 153 人の署名者からの 70,000 本のビデオ、合計 834 万フレームで構成されており、孤立した標識と連続した共同関節標識の両方をカバーしており、HamNoSys、話し言葉、単語などの複数のプロンプトが含​​まれています。

体、手、顔のメッシュや生体力学的に有効なポーズ、2D および 3D のキーポイントなどの 3D 総合的な注釈を生成するために、SL ビデオの大規模なコーパスで動作する自動注釈パイプラインを導入します。
SignAvatars は、テキスト スクリプト、個々の単語、HamNoSys 表記などの多様な入力から、3D 手話認識 (SLR) や新しい 3D SL 制作 (SLP) などのさまざまなタスクを容易にします。
したがって、SignAvatar の可能性を評価するために、3D SL ホリスティック モーション制作の統一ベンチマークをさらに提案します。
私たちは、この取り組みが、聴覚障害者や難聴者のコミュニティ、そして彼らと交流する人々にデジタル世界をもたらすための重要な前進であると信じています。

要約(オリジナル)

We present SignAvatars, the first large-scale, multi-prompt 3D sign language (SL) motion dataset designed to bridge the communication gap for Deaf and hard-of-hearing individuals. While there has been an exponentially growing number of research regarding digital communication, the majority of existing communication technologies primarily cater to spoken or written languages, instead of SL, the essential communication method for Deaf and hard-of-hearing communities. Existing SL datasets, dictionaries, and sign language production (SLP) methods are typically limited to 2D as annotating 3D models and avatars for SL is usually an entirely manual and labor-intensive process conducted by SL experts, often resulting in unnatural avatars. In response to these challenges, we compile and curate the SignAvatars dataset, which comprises 70,000 videos from 153 signers, totaling 8.34 million frames, covering both isolated signs and continuous, co-articulated signs, with multiple prompts including HamNoSys, spoken language, and words. To yield 3D holistic annotations, including meshes and biomechanically-valid poses of body, hands, and face, as well as 2D and 3D keypoints, we introduce an automated annotation pipeline operating on our large corpus of SL videos. SignAvatars facilitates various tasks such as 3D sign language recognition (SLR) and the novel 3D SL production (SLP) from diverse inputs like text scripts, individual words, and HamNoSys notation. Hence, to evaluate the potential of SignAvatars, we further propose a unified benchmark of 3D SL holistic motion production. We believe that this work is a significant step forward towards bringing the digital world to the Deaf and hard-of-hearing communities as well as people interacting with them.

arxiv情報

著者 Zhengdi Yu,Shaoli Huang,Yongkang Cheng,Tolga Birdal
発行日 2024-07-02 15:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク