ISLTranslate: Dataset for Translating Indian Sign Language

要約

手話は、世界中の多くの難聴者にとって主要なコミュニケーション手段です。
最近、聴覚障害者コミュニティとその他の人口との間のコミュニケーションギャップを埋めるために、統計的手話翻訳システムの開発を可能にするいくつかの手話翻訳データセットが提案されています。
しかし、インド手話の手話リソースは不足しています。
このリソース ペーパーでは、31,000 個の ISL と英語の文/フレーズのペアで構成される連続インド手話 (ISL) の翻訳データセットである ISLTranslate を紹介します。
私たちの知る限り、これは継続的なインド手話の最大の翻訳データセットです。
データセットの詳細な分析を提供します。
既存のエンドツーエンドの手話から音声言語への翻訳システムのパフォーマンスを検証するために、作成されたデータセットを ISL 翻訳用のトランスフォーマー ベースのモデルでベンチマークします。

要約(オリジナル)

Sign languages are the primary means of communication for many hard-of-hearing people worldwide. Recently, to bridge the communication gap between the hard-of-hearing community and the rest of the population, several sign language translation datasets have been proposed to enable the development of statistical sign language translation systems. However, there is a dearth of sign language resources for the Indian sign language. This resource paper introduces ISLTranslate, a translation dataset for continuous Indian Sign Language (ISL) consisting of 31k ISL-English sentence/phrase pairs. To the best of our knowledge, it is the largest translation dataset for continuous Indian Sign Language. We provide a detailed analysis of the dataset. To validate the performance of existing end-to-end Sign language to spoken language translation systems, we benchmark the created dataset with a transformer-based model for ISL translation.

arxiv情報

著者 Abhinav Joshi,Susmit Agrawal,Ashutosh Modi
発行日 2023-07-11 17:06:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク