JWSign: A Highly Multilingual Corpus of Bible Translations for more Diversity in Sign Language Processing

要約

手話処理の進歩は、十分なデータの不足によって妨げられ、認識、翻訳、制作作業の進歩を妨げています。
世界中の手話にわたる包括的な手話データセットの欠如により、この分野における格差が拡大し、その結果、いくつかの手話が他の手話よりも多く研究されることになり、この研究領域が主に高所得国の手話に非常に偏ったものとなっています。
この研究では、手話翻訳用の新しい大規模かつ高度に多言語のデータセット、JWSign を導入します。
このデータセットは、1,500 人を超える個人の署名者をフィーチャーした、98 の手話言語による 2,530 時間の聖書翻訳で構成されています。
このデータセットについて、ニューラル機械翻訳の実験を報告します。
二言語ベースライン システムとは別に、手話言語または口頭言語の類型的関連性を考慮したものを含む多言語システムもトレーニングします。
私たちの実験では、多言語システムが二言語ベースラインよりも優れていること、および高リソースのシナリオでは、関連する言語ペアをクラスタリングすることで翻訳品質が向上することが強調されています。

要約(オリジナル)

Advancements in sign language processing have been hindered by a lack of sufficient data, impeding progress in recognition, translation, and production tasks. The absence of comprehensive sign language datasets across the world’s sign languages has widened the gap in this field, resulting in a few sign languages being studied more than others, making this research area extremely skewed mostly towards sign languages from high-income countries. In this work we introduce a new large and highly multilingual dataset for sign language translation: JWSign. The dataset consists of 2,530 hours of Bible translations in 98 sign languages, featuring more than 1,500 individual signers. On this dataset, we report neural machine translation experiments. Apart from bilingual baseline systems, we also train multilingual systems, including some that take into account the typological relatedness of signed or spoken languages. Our experiments highlight that multilingual systems are superior to bilingual baselines, and that in higher-resource scenarios, clustering language pairs that are related improves translation quality.

arxiv情報

著者 Shester Gueuwou,Sophie Siake,Colin Leong,Mathias Müller
発行日 2023-11-16 20:02:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク